python爬虫笔记

最新推荐文章于 2023-03-27 14:21:11 发布

奇妙探险家

最新推荐文章于 2023-03-27 14:21:11 发布

阅读量442

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013760453/article/details/54694473

版权

python 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

准备：requests、bs4(解析html)/re(解析html)

import requests,re
from bs4 import BeautifulSoup
#下载文本并读取为pandas的dataframe
a=requests.get('http://*****:****/20170115-all.txt')
data=(a.content).decode('gbk','ignore')
temp_d=StringIO(data.replace('\t',','))
df=pd.read_csv(temp_d,sep=',',header=None)
#下载图片
a=requests.get(r'http://www.dataguru.cn/data/attachment/common/cf/140046k3e1e0z22ayeykyx.jpg')
file=open(r'D:\baidu\Desktop\a.jpg','wb')
file.write(a.content)
file.close()

#使用beautifulsoup解析html
a=requests.get('http://f.dataguru.cn/forum-138-2.html')
soup=BeautifulSoup((a.content).decode('gbk','ignore'))
titlelist=[x.contents[0] for x in soup.find_all('a',οnclick="atarget(this)")]
#使用re解析html
a=requests.get('http://f.dataguru.cn/forum-138-2.html')
r='class="s xst">(.*)</a>'
tittlelist=re.findall(r,(a.content).decode('gbk','ignore'))

使用beautifulsoup时，先获取网页html文本，创建beautifulsoup对象，该对象的find_all()方法有多个用于筛选的参数

对应这段文本，find_all('a')是筛选出所有名称为a的标签，find_all(οnclick="atarget(this)")是筛选出所有包含onclick属性且其值为"atarget(this)"的标签，
筛选出的结果是包含一系列标签的list，list[0]即为第一个标签，list[0].contents是<a href=..........>与</a>之间的那段文本，list[0]['href']是该标签href项对应的值

使用re时，先获取网页文本，再用正则表达式直接匹配模式，re.findall(r,text)，其中r为模式字符串，根据正则表达式规则编写，可在http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html查阅规则，结果为包含一系列文本的list。

奇妙探险家

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

奇妙探险家

博客等级

码龄11年

148
原创

122
点赞

266
收藏

34
粉丝

关注

私信

热门文章

分类专栏

kafka 1篇
报表工具 1篇
python 26篇
mysql 18篇
linux 17篇
hadoop 10篇
hive 9篇
java 27篇
爬虫 2篇
kettle 1篇
spark 7篇
Shell 4篇
Maven 7篇
git 3篇
VBA 1篇
阅读材料 1篇
scala 1篇
IntelliJ IDEA 7篇
SQL 10篇
项目记录
磐石项目
Megalith
数据仓库 4篇
教程链接 1篇
oracle 5篇
informatica 9篇
docker 3篇
ETL 1篇
greenplum 1篇

最新评论

excel笔记
楚林夕呀: 感谢感谢，搜了一大圈，总算解决了~
使用python统计高频词，模糊匹配不规范公司名称
weixin_50755808: 那如果是公司地址的，比如你要做一个某个省市的公司地址，其中有的地址的字段很相似，那么我怎么筛选也许是两个相同的地址，比如第一个地址精确到门牌号，第二个地址有前一个相似的门牌号，然后还有别的字段，我怎么区分》在线问，不急
使用python统计高频词，模糊匹配不规范公司名称
breakthrough：）: 抱歉问一个比较弱智的问题我在jupyter notebook里面import jieba它显示module not found该怎么办啊
oracle笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)使用更多的站内链接；(3)增加条理清晰的目录。
akka并发通信、actor模型的理解
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7975834, 请多输出高质量博客, 帮助更多的人

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。