提取网页数据保存为csv文件

最新推荐文章于 2023-02-14 16:58:37 发布

csdn_LYY

最新推荐文章于 2023-02-14 16:58:37 发布

阅读量2.7k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_LYY/article/details/87903346

版权

import requests
r = requests.get('https://www.baidu.com')

from bs4 import BeautifulSoup
soup = BeautifulSoup(r.text, 'html.parser')
results = soup.find_all('span', attrs={'class':'short-desc'})
records = []

for result in results:
    date = result.find('strong').text[0:-1]+',2017'
    lie = result.contents[1][1:-2]
    explanation = result.find('a').text[1:-1]
    url = result.find('a')['href']
    records.append((date, lie, expalanation, url))

imort pandas as pd 
df = pd.DataFrame(records, columns=['date', 'lie', 'explanation', 'url'])
df['date'] = pd.to_datetime[df['date']])
df.to_csv('trump_lies.csv', index=False, encoding='utf-8')

以上就是对提取网页数据保存为csv文件的认识。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄10年

312
原创

238
点赞

618
收藏

37
粉丝

关注

私信

热门文章

分类专栏

工具 6篇
leetcode 1篇
经验 2篇
无线通信 2篇
人工智能 1篇
mathtype 1篇
blog 3篇
C++ 105篇
汇编 17篇
随想 5篇
数据结构 4篇
算法 3篇
linux 24篇
database 44篇
计算机组成原理
计算机网络 1篇
操作系统 10篇
Hadoop
Hbase 1篇
Docker 8篇
机器学习 69篇
WEKA 3篇
TeX 18篇
LabVIEW
matlab 19篇

最新评论

latex希腊字母斜体变正体
baidu_34343905: 牛，一句话解决问题，别的攻略还要引入宏包甚至还要收费才能看教程
概率和似然，终于懂了
天心481: 求似然的目的就是估计参数θ，如果这个θ就是真实的θ，那么似然和概率一定是相等的
谈google搜索引擎的使用
十三月的天: 所以谷歌搜索引擎怎么用啊
texstudio出现Could not start the command: pdflatex.exe -synctex=1 -interaction=nonstopmode解决方法
weixin_50519490: 还是打不开，右侧是黑屏，显示pdf格式不正确
[科普]原码，反码，补码由来
做而论道_CS: 实际上，任意负数（－X）的补码，都是：0 － X。你用二进制简单算一下，立刻就能得到结果。（－128 的 8 位补码，也就是这样求出来的。）同理，任意正数（＋X）的补码，也都是：0 ＋ X。这还用算？ 0 ＋ X，不就是 X 吗？即，正数的补码，就是 X 本身！求补码，就是这么简单。符号位原码反码取反加一符号位不变模... 这些，不过是 “拿来鞋拔当如意” 而已。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。