python14

最新推荐文章于 2024-08-15 01:55:01 发布

王文友

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量168

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/big_data_study/article/details/102573446

版权

爬虫专栏收录该内容

17 篇文章 0 订阅

订阅专栏

import re
import urllib.request
import urllib.parse

#python新闻爬虫
‘’’
需求：将腾讯新闻首页所有新闻都爬到本地
思路：
1先爬首页
2.通过正则获取所有新闻链接
3.然后依次爬各新闻链接
4.寻找有没有frame
5.若有，抓取frame下对应网页内容
6.若没有，直接抓取当前页面
7.最后保存到本地
‘’’

‘’’
. 除换行符以外的任意字符
^ 不在原子表中，代表匹配开始位置
$ 匹配结束位置

前面的原子重复出现 0次、1次、多次
? 前面的原子重复出现 0次、1次

前面的原子重复出现 1次、多次
{n} 前面这个原子恰好出现n次
{n,} 前面这个原子至少出现n次
{n,m} 前面这个原子至少出现n次,最多出现m次
| 模式选择符或
() 模式单元
‘’’

‘’’
\w 字母、数字、下划线的任意字符
\W 除字母、数字、下划线以外的任意字符
\d 十进制数字
\D 除十进制数字以外的任意字符
\s 空白字符
\S 除空白字符以外的任意字符
‘’’

‘’’
https://tuijian.hao123.com/?type=ent # 首页
https://www.hao123.com/mid/15347725934085257216 # 首页下的其中一个链接
<a href=“http://www.hao123.com/mid?from=shoubai&key=9394217739764907774&type=gallery” #写正则
<a href=“http://www.hao123.com/mid?from=shoubai&key=9394217739764907774&type=gallery” #重复的
<a href=“http://www.hao123.com/mid?from=shoubai&key=8829226993931220164&type=gallery” #不同的
‘’’

#爬取首页所有新闻内容

url = “https://tuijian.hao123.com/?type=ent”
data = urllib.request.urlopen(url).read().decode(“utf-8”,“ignore”)
pat1 = ‘a href=“http://www.hao123.com/mid?from=shoubai&key=(\d{18})&type=gallery”’
res = re.compile(pat1).findall(data)

for i in range(0,len(data)):
thisdata = data[i] #得到当前的链接
thispage = urllib.request.urlopen(thisdata).read().decode(“utf-8”,“ignore”)
#http://www.hao123.com/redian/problem.htm
pat2 = “http://www.hao123.com/(.*?))”
isframe = re.compile(pat2).findall(thispage)
print(len(isframe))

print(len(res))
‘’’
没成功，因为源码改了，这种方式无法爬取了
‘’’

‘’’
爬取csdn播客首页显示的所有的文章，每个文章内容单独生成一个本地网页存到本地中。
难点：浏览器伪装、循环爬各文章
思路：
1.先爬首页
2.然后通过把正则筛选出所有文章url
3.然后通过循环分别爬取这些url到本地
http://blog.csdn.net #首页

王文友

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python14

import reimport urllib.requestimport urllib.parse#python新闻爬虫‘’’需求：将腾讯新闻首页所有新闻都爬到本地思路：1先爬首页2.通过正则获取所有新闻链接3.然后依次爬各新闻链接4.寻找有没有frame5.若有，抓取frame下对应网页内容6.若没有，直接抓取当前页面7.最后保存到本地‘’’‘’’. 除换行符...
复制链接

扫一扫

专栏目录