从html页面中爬取表格,爬取网页表格数据，并且CSV文件保存

最新推荐文章于 2024-05-10 15:55:25 发布

weixin_39860975

最新推荐文章于 2024-05-10 15:55:25 发布

阅读量615

点赞数

文章标签：从html页面中爬取表格

import pandas as pd

import requests

from fake_useragent import UserAgent

import random

from lxml import etree

'''解析网页数据'''

def parse_html(url):

ua = UserAgent()

print(ua.random) # 随机打印任意厂家的浏览器

headers = {

'User-Agent': ua.random,

'Referer': 'https://www.dxsbb.com'

}

try:

resp = requests.get(url, headers=headers)

# 将编码方式设置为从内容中分析出的响应内容编码方式

resp.encoding = resp.apparent_encoding

if resp.status_code == 200:

tree = etree.HTML(resp.text)

# 定位获取表格信息

tb = tree.xpath('//*[@id="content"]/table')

print("**************tb********************88", tb)

# 将byte类型解码为str类型

tb = etree.tostring(tb[0], encoding='utf8').decode()

return tb

else:

print("出现问题")

except:

pass

def main():

url = 'https://www.dxsbb.com/news/50354.html'

tb = parse_html(url)

print("**************8tb********************88", tb)

# 解析表格数据

df = pd.read_html(tb, encoding='utf-8', header=0)[0]

print("df.T.to_dict()********************88", df.T.to_dict())

print("df.T.to_dict().values()********************88", df.T.to_dict().values())

# 转换成列表嵌套字典的格式

result = list(df.T.to_dict().values())

print("result*****************", result)

# 保存为csv格式

df.to_csv('211_university.csv', index=False)

main()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39860975

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从html页面中爬取表格,爬取网页表格数据，并且CSV文件保存

import pandas as pdimport requestsfrom fake_useragent import UserAgentimport randomfrom lxml import etree'''解析网页数据'''def parse_html(url):ua = UserAgent()print(ua.random) # 随机打印任意厂家的浏览器headers = {'Use...
复制链接

扫一扫