第一次尝试爬虫,爬取慧聪网数据,牛刀小试

第一次爬虫,各种被虐,好在成功了,不过还有很多需要改进的地方,先纪念一下吧

import requests
import re
from bs4 import BeautifulSoup
import csv
print('正在爬取中,请稍候...')
#第一步获取某个类别中的若干个地址,例如榨油机
url1 = 'https://www.hc360.com/hots-mhf/900154677.html'#大类中的小类地址,只改变这一个就可以了,不过这也是一个可以改进的地方
responce = requests.get(url1)
soup = BeautifulSoup(responce.content,'lxml')
# print(soup)
reg = r'href="(.+?\.html)" onclick' #.+? 表示匹配一次或多次
href = re.compile(reg)
href_list = re.findall(href,soup.decode('utf-8'))
#定于全局变量
hcw_company_name = 0    #慧聪网公司名称
hcw_product_name = 0    #慧聪网产品名称
hcw_price = 0   #慧聪网报价
hcw_name = 0    #慧聪网联系人
hcw_iPhone = 0  #慧聪网联系人电话
#第二步得到具体产品的地址,爬取具体产品的信息
for url2 in href_list:
    # print(url2)
    lis = 'http:'
    url3 = lis + url2
    # print(url3)
    f = requests.get(url3)
    soup = Beauti
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
 慧聪网企业信息采集器,是采集慧聪网里面的买卖通会员和普通会员信息的一款全自动信息提取软件。提取的信息包括:企业名称、慧聪账号、联系人姓名、手机、电话、传真 、地址、邮编、公司网址。这些信息可以用于市场营销,比如:群发传真,群发手机短信,慧聪发发群发,电话营销,电子邮件群发,产品宣传册大面积邮递。这些信息还可以用 于市场调查,分析客户分布情况,分析竞争对手的情况等。软件能够按照关键词、省份、城市、经营类型,搜索慧聪网公司库和产品库,自定义设置搜索范围,快速抓取上述信息 。 慧聪网企业信息采集器的特点: 1.软件体积小,下载后解压到本地文件夹,就可以打开使用,勿需安装。绿色软件,不绑定任何其他商业插件。 2.界面清晰,操作简便快捷,容易掌握使用,还有在线的使用演示视频。 3.免费自动在线升级到最新版本,也可以手动升级。 4.点击【预览信息】按钮,可以浏览抓取的信息,以作进一步的分析。 5.搜索产品库,以锁定高质量的目标客户群,抓取对口的客户信息。 6.抓取的信息可以导出到外部CSV文件,可以用Excel程序打开,以便使信息可以导入其他营销软件里面。 7.软件自动免费终身升级,使本采集器能够及时抓取升级后的阿里巴巴网站公司库和产品库里的信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值