爬虫学习-莆田

最新推荐文章于 2024-07-23 14:36:35 发布

hansenblood

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量96

点赞数

分类专栏： python使用日常记录文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/qq_42578742/article/details/127612882

版权

python使用日常记录专栏收录该内容

6 篇文章 4 订阅

订阅专栏

爬虫学习-莆田

文章目录

爬虫学习-莆田
@[toc]
使用库
方法步骤
设置基本变量
定义爬虫函数
1.莆田二手房
2.莆田小鱼网

定义保存函数
主函数
文件处理

使用库

requests
beautifulsoup4
pandas

方法步骤

定义访问头文件和url
获取网页源代码
对源代码中的所需部分进行截取

设置基本变量

# url 爬取目标网站，实际没用上
root_url = [
    "http://www.ptfish.com/",   # 莆田小鱼网
    "https://www.0594.com/",    # 莆田二手房网
]
# headers 请求头变量，模仿正常人电脑
headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36",
}

定义爬虫函数

1.莆田二手房

def get_house_content(string):
    # 定义两个中间变量
    mid_dict = {}
    url_list = []
    # 因一个网页内有多个标题，页面数量较少，将网址保存到数组url_list中
    page = 300
    for i in range(page):
        url = "https://www.0594.com/list-36-" + str(i) + ".html"
        url_list.append(url)
    # 对网页的标题信息进行爬取
    for i in range(page):
        html = requests.get(url_list[i], headers=headers)
        soup = BeautifulSoup(html.text, "html.parser")
        # 使用bs4的select模块找到对应的标题的代码 
        tag_center = soup.select(string)
        try:
            for mid_int in range(11):
                # 截取自己想要的属性并保存到字典mid_dict中
                dict_name = tag_center[mid_int].attrs["title"]
                dict_url = tag_center[mid_int].attrs["href"]
                mid_dict[dict_name] = dict_url
        except:
            pass
    return mid_dict

string为网页对应的属性，通过bs4对页面信息进行选取

2.莆田小鱼网

因需求为爬取信息，不做信息的赘余处理

这里仅按照网页的网址命名规则进行爬取即可

def get_news_content():
    # 定义两个中间变量
    mid_dict = {}
    url_list = []
    # 当前最新的界面
    page = 4516
    # 将网址进行遍历保存到数组url_list中
    for i in range(page-3000, page):
        url = "http://www.ptfish.com/thread-231" + str(i) + "-1-1.html"
        url_list.append(url)
    # 对网页的标题信息进行爬取，执行3000次
    for i in range(3000):
        try:
            html = requests.get(url_list[i], headers=headers)
            soup = BeautifulSoup(html.text, "html.parser")
			# 使用bs4的select模块找到对应的标题的代码
            tag_title = soup.select(".ts > span")
			# 截取自己想要的属性并保存到字典mid_dict中
            dict_name = tag_title[0].text
            dict_url = url_list[i]
            mid_dict[dict_name] = dict_url
        except:
            pass
    return mid_dict

定义保存函数

输出为excel文件

def excel_output(dict, output_name):
    a= dict.keys()
    b = dict.values()
    dict_1 = {'title': a, 'href': b}
    df = pd.DataFrame(dict_1)
    # 保存 dataframe
    df.to_csv(output_name)

dict为爬取数据后传入的字典
output_name为保存的csv文件名

主函数

if __name__ == "__main__":
    # 莆田二手房
    house_dict = get_house_content(".news-list > a")
    print(house_dict.keys())
    excel_output(house_dict, "house.csv")

    # 莆田小鱼网
    news_dict = get_news_content()
    print(news_dict)
    excel_output(news_dict, "news.csv")