爬虫基础训练(一)


from bs4 import BeautifulSoup       #beautifulsoup4库使用时是简写的bs4
import requests
import pandas as pd


r = requests.get('http://blackarchitect.us/')
demo = r.text
soup = BeautifulSoup(demo, 'html.parser')    #解析器:html.parser
data_city = soup.find_all('td', valign="top", width="110")  # 取出数据
data_state = soup.find_all('td', valign="top", width="47", align='center')
data_state_license = soup.find_all('td', valign="top", width="60", align='center')
list_city = []
list_state = []
list_state_license = []
for i in data_city:
    list_city.append(i.text)
for i in data_state:
    list_state.append(i.text)
for i in data_state_license:
    list_state_license.append(i.text)

# print(list1)
print(len(list_state), len(list_state_license), len(list_city))  #判断数据是否缺少
df = pd.DataFrame({'city':list_city, 'state':list_state, 'state of license':list_state_license})
df.to_csv('US.csv')

比较基础的爬虫程序,使用bs4和requests模块就够了,这个网页的数据量比较大,解析完网页后,取出里面的数据即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值