爬虫基础训练（一）

最新推荐文章于 2024-07-08 00:01:13 发布

linker6619

最新推荐文章于 2024-07-08 00:01:13 发布

阅读量107

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/linker6619/article/details/111053377

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏


from bs4 import BeautifulSoup       #beautifulsoup4库使用时是简写的bs4
import requests
import pandas as pd


r = requests.get('http://blackarchitect.us/')
demo = r.text
soup = BeautifulSoup(demo, 'html.parser')    #解析器：html.parser
data_city = soup.find_all('td', valign="top", width="110")  # 取出数据
data_state = soup.find_all('td', valign="top", width="47", align='center')
data_state_license = soup.find_all('td', valign="top", width="60", align='center')
list_city = []
list_state = []
list_state_license = []
for i in data_city:
    list_city.append(i.text)
for i in data_state:
    list_state.append(i.text)
for i in data_state_license:
    list_state_license.append(i.text)

# print(list1)
print(len(list_state), len(list_state_license), len(list_city))  #判断数据是否缺少
df = pd.DataFrame({'city':list_city, 'state':list_state, 'state of license':list_state_license})
df.to_csv('US.csv')

比较基础的爬虫程序，使用bs4和requests模块就够了，这个网页的数据量比较大，解析完网页后，取出里面的数据即可。

linker6619

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础训练（一）

from bs4 import BeautifulSoup #beautifulsoup4库使用时是简写的bs4import requestsimport pandas as pdr = requests.get('http://blackarchitect.us/')demo = r.textsoup = BeautifulSoup(demo, 'html.parser') #解析器：html.parserdata_city = soup.find_all('td', .
复制链接

扫一扫