第一次尝试爬虫，爬取慧聪网数据，牛刀小试

最新推荐文章于 2020-11-21 04:33:27 发布

阿辉2018

最新推荐文章于 2020-11-21 04:33:27 发布

阅读量1k

点赞数 2

分类专栏： python爬虫文章标签：爬虫慧聪网第一次爬虫

本文链接：https://blog.csdn.net/weixin_41177247/article/details/88919321

版权

第一次爬虫，各种被虐，好在成功了，不过还有很多需要改进的地方，先纪念一下吧

import requests
import re
from bs4 import BeautifulSoup
import csv
print('正在爬取中，请稍候...')
#第一步获取某个类别中的若干个地址，例如榨油机
url1 = 'https://www.hc360.com/hots-mhf/900154677.html'#大类中的小类地址，只改变这一个就可以了，不过这也是一个可以改进的地方
responce = requests.get(url1)
soup = BeautifulSoup(responce.content,'lxml')
# print(soup)
reg = r'href="(.+?\.html)" onclick' #.+? 表示匹配一次或多次
href = re.compile(reg)
href_list = re.findall(href,soup.decode('utf-8'))
#定于全局变量
hcw_company_name = 0    #慧聪网公司名称
hcw_product_name = 0    #慧聪网产品名称
hcw_price = 0   #慧聪网报价
hcw_name = 0    #慧聪网联系人
hcw_iPhone = 0  #慧聪网联系人电话
#第二步得到具体产品的地址，爬取具体产品的信息
for url2 in href_list:
    # print(url2)
    lis = 'http:'
    url3 = lis + url2
    # print(url3)
    f = requests.get(url3)
    soup = Beauti

最低0.47元/天解锁文章

阿辉2018

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第一次尝试爬虫，爬取慧聪网数据，牛刀小试

第一次爬虫，各种被虐，好在成功了，不过还有很多需要改进的地方，先纪念一下吧import requestsimport refrom bs4 import BeautifulSoupimport csvprint('正在爬取中，请稍候...')#第一步获取某个类别中的若干个地址，例如榨油机url1 = 'https://www.hc360.com/hots-mhf/900154677....
复制链接

扫一扫