爬虫的介绍
互联网中最有价值的便是数据,比如天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等等,这些数据都代表了各个行业的真金白银,可以说,谁掌握了行业内的第一手数据,谁就成了整个行业的主宰,如果把整个互联网的数据比喻为一座宝藏,那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了所有互联网信息公司幕后的老板,换言之,它们都在免费为你提供有价值的数据。
流程图
爬取代码
import requests
from lxml import etree
from urllib.parse import urlencode
class jingdong(object):
# 初始化操作
def __init__(self):
# 发送得请求地址
url = " https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&spm=2.1.0&vt=2&page=3&s=56&click=0"
# 请求头
self.headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'}
# 发送请求
self.response = requests.get(url=url, headers=self.headers)
def run(self):
# 解析数据
data = self.response.content.decode()
# 格式转换
x_data = etree.HTML(data)
# 解析图片
result_urlImg = x_data.xpath(
'//li/div[@class="gl-i-wrap"]/div[@class="p-img"]/a[@target="_blank"]/img[@class="err-product"]/@source-data-lazy-img')
# 标题
result_title = x_data.xpath(
'//li/div[@class="gl-i-wrap"]/div[@class="p-name p-name-type-2"]/a[@target="_blank"]/em/text()')
# 价格
result_price = x_data.xpath('//li/div[@class="gl-i-wrap"]/div[@class="p-price"]/strong/i/text()')
output = ""
for index, url in enumerate(result_urlImg):
output += result_title[index] + "\t" + result_price[index] + "\t" + "http:" + result_urlImg[index]+"\r"
# 将内容输出到文件中
with open('D:\HOME\python\Text04\\text01\\1.txt', 'w')as ouput:
ouput.write(output)
if __name__ == '__main__':
# 调用函数启动
jingdong().run()
现在就分享到这里了对你帮助的化点赞关注