python 爬虫

最新推荐文章于 2024-05-19 23:31:32 发布

南城梦

最新推荐文章于 2024-05-19 23:31:32 发布

阅读量494

点赞数

文章标签： python Powered by 金山文档

本文链接：https://blog.csdn.net/qq_41717536/article/details/129691576

版权

import csv  #用于把爬取的数据存储为csv格式，可以excel直接打开的
import time  #用于对请求加延时，爬取速度太快容易被反爬
from time import sleep #同上
import random  #用于对延时设置随机数，尽量模拟人的行为
import requests  #用于向网站发送请求
from lxml import etree    #lxml为第三方网页解析库，强大且速度快


"""构造请求url,添加头部信息headers即复制前文标记的User_Agert,
通过request.get方法向服务器发送请求，返回html文本
添加headers目的在于告诉服务器，你是真实的人在访问其网站。
如果你不添加headers直接访服务器，会在对方服务器显示python在访问，那么，你很可能会被反爬，常见的反爬就是封你ip
"""
url = 'http://www.yuzhuprice.com/PorudctPrice'  #网站链接
headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36",
}
response = requests.get(url,headers=headers,timeout=10)
html = response.text
# print(html)

#需要提取的数据，就潜藏在这网页源代码中，我们要用lxml库中的etree方法解析下网页
parse = etree.HTML(html)  #解析网页
all_tr = parse.xpath('//*[@id="173200"]')  #源码里的的一个id=173200的tr，先把这些tr都提取下来
# print(all_tr)
print('******************')

for tr in all_tr:
    tr = {
        'name': ''.join(tr.xpath('./td[1]/text()')).strip(),
        'price': ''.join(tr.xpath('./td[2]/text()')).strip(),
        'unit': ''.join(tr.xpath('./td[3]/text()')).strip(),
        'supermaket': ''.join(tr.xpath('./td[4]/text()')).strip(),
        'time': ''.join(tr.xpath('./td[5]/text()')).strip()
    }
    print(tr)

with open('wood.csv', 'a', encoding='utf_8_sig', newline='') as fp:
    # 'a'为追加模式（添加）
    # utf_8_sig格式导出csv不乱码
    fieldnames = ['name', 'price', 'unit', 'supermaket', 'time']
    writer = csv.DictWriter(fp, fieldnames)
    writer.writerow(tr)