c#使用正则表达式获取TR中的多个TD_Python爬虫基础教程——正则表达式抓取入门...

671945989282fbeb8dbbd072efa41e50.png

点击上方蓝色文字关注我们吧

cab6a153b0697fe8ef91dcde01ff833b.png

有你想要的精彩

148c380cdc7c5f124bb020912ab53cf0.png

作者 | 東不归 出品 | Python知识学堂

大家好,因某些原因深度学习篇要停更一段时间,所以我们就把Python爬虫的课程提前一下。不知道大家对爬虫方面有什么了解?本篇文章主要讲述爬虫一些需要注意的地方、开发环境以及使用正则表达来抓取网站上的信息等。

简单介绍

网络爬虫简单的解释就是从网站上获取相关的信息为已所用的一个自动化处理的方式;

合法性

虽然在2017年就已经开始实施《网络安全法》,但是也没有特别明确爬取公开信息的行为是否违法。

小编搜索了一下资料,自己总结了两点:

  • 爬取的数据非盈利使用,只要你没有非常大的获取利润、只要你的采集没有涉及到敏感的信息,一般来说就没有关系

  • 爬虫的程序不能使其网站瘫痪,不能一味的追求爬虫的速度,开了大量的线程,导致网站的并发量突增,致其网点奔溃甚至瘫痪,这就比较尴尬了。

检查robots.txt文件

大家可以查看一下网站的robots.txt的文件,此文件会对爬虫有哪些限制,检查robots.txt文件可以最小化爬虫被封禁的可能,还有可能会发现和网站接口相关的线索;

9e90afa62bfb0d58003606aa0ec43901.png

知乎

645d38136c454b7bb7089a2ac686e881.png

csdn网站

ecee163423e58421a1ceb06d14f58adc.png

开源中国网站

说明:

  • User-agent 下的都是表示禁止使用某种代理

  • Sitemap 表示网站地图,会提供网站的一些相关的信息,大家可以看一下了解一下

  • Crawl-delay 这个表示每次请求之间要间隔的秒数,这个就是网站再提示防止网站服务器过载,还有注意一个/trap链接,用于封禁爬取了不允许链接的恶意爬虫。

并不是所有网站都有robot.txt 文件,大家在爬虫要注意,避免网站服务器过载宕机等风险。

开发环境

1、Python3.8

    大家尽量使用Python3.x版本。

2、VSCode开发工具

    VSCode环境的搭建看一下之前的推文《Python实用教程系列——VSCode Python 开发环境搭建》

大家在使用python的时候会用pip install xxx的指令去安装一些包,会遇到安装不了的情况,我总结了一下解决方案,供大家参考

  1. 尽量使用管理员打开cmd 或者vscode

  2. 到python安装路径下安装,如

    C:\Users\64385\AppData\Local\Programs\Python\Python38>

  3. 指定国内下载源下载,有很多的资源都是在国外,直接下载的会有网络网速的问题,指定国内的镜像源就会很快,如:

    pip install BeautifulSoup4 

    -i http://pypi.douban.com/simple/

    --trusted-host pypi.douban.com

正则表达式

举例说明

1、元字符^

如果^元字符放到[]字符集中就是反取的意思

import re
str="python知识学堂,python欢迎你"
result=re.findall('[^python]',str)#反取 匹配除‘python’以外的字符 返回值是list
print(result)

结果:

d6883ac37b8153ab7101ac23699d7962.png

2、元字符*

表示匹配其前面的一个字符0次或多次

import  re
str="python知识学堂,欢迎来到学堂"
print(re.findall("知识*",str)) #星号前面的一个字符可以是0次或多次,返回值是list
print(re.findall("学堂*",str)) #星号前面的一个字符可以是0次或多次,返回值是list

结果:

6e584ff75481323803b8f26e978786b2.png

3、元字符()

也就是分组匹配,()里面的为一个组或者说是整体

import  re
str="python知识学堂,欢迎来到学堂"
print(re.findall("(知识)",str)) 
print(re.findall("(学堂)",str)) 

结果:

2cc125db8f12de58f8999d68370bee2a.png

下面给大家列出常用的,大家自己尝试一下

常用的元字符

add7d1360fb07392c43a1493bc7e0c3f.png

常用的量词

55fbfcb3b39425f756f79a2ac415f063.png

大家也可以查看 下面网站查看学习

https://docs.python.org/2/howto/regex.html

re模块

re函数参数说明

  • pattern:正则模型

  • string :要匹配的字符串

  • falgs :匹配模式 默认0  re.A (只匹配ASCII字符), re.I (忽略大小写), re.L (语言依赖), re.M (多行模式), re.S (点dot匹配全部字符), re.U (Unicode匹配), and re.X (冗长模式)

re.findall(pattern,string,flags=0)

对 string 返回一个不重复的 pattern 的匹配列表, string 从左到右进行扫描,匹配按找到的顺序返回。如果样式里存在一到多个组,就返回一个组合列表;就是一个元组的列表(如果样式里有超过一个组合的话)。空匹配也会包含在结果里。

import re
text="python知识学堂,python欢迎你"
print("输入结果:")
print(re.findall(r'[a-z]',text))  #查找所有小写的字母

结果:

00824b0375e9638885e6e5b0df25cd16.png

re.search(pattern,string,flags=0)

扫描整个 字符串 找到匹配样式的第一个位置,并返回一个相应的 匹配对象。如果没有匹配,就返回一个 None ;注意这和找到一个零长度匹配是不同的。

import re
text="python知识学堂,python欢迎你"
print("输入结果:")
print(re.search(r'[a-z]',text).group())  #只会匹配一个对象

结果:

3f77dd018749c0f0b5b5b1e30a8c8423.png

re.match(pattern,string,flags=0)

如果 string 开始的0或者多个字符匹配到了正则表达式样式,就返回一个相应的 匹配对象 。如果没有匹配,就返回 None ;注意它跟零长度匹配是不同的。

import re
text="python知识学堂,python欢迎你"
print("输入结果:")
print(re.match(r'[a-z]',text).group())  #只会匹配一个对象

结果:

72fa1f2b4a7f1191910743ad14a0ae7a.png

flags参

举例给大家看一下这个参数的使用方式。

import re
text="python知识学堂,PYTHON欢迎你"
print("输入结果:")
print(re.findall('[a-z]',text,re.I)) #获取所有字母不管大小写

结果:

12bc8317d3d44e5245aff8e1c83b7e8f.png

大家可以看到有些地方加了'r' 前缀,在带有 'r' 前缀的字符串字面值中,表示反斜杠不必做任何特殊处理。如 r"\n" 表示包含 '\' 和 'n' 两个字符的字符串,而 "\n" 则表示只包含一个换行符的字符串。建议大家习惯性加前缀'r' 

这里只举出常用的,还有一些其他的函数,大家可以去网上搜一下资料自行学习一下。下面是官方的网址,可以参考一下

https://docs.python.org/zh-cn/3/library/re.html

下面就使用正则的方式来抓取网站上的信息

正则方式抓取

我们会使用到的re(正则表达式)模块 与requests(http)模块,这里我们使用效率更高一点的requests库而并不是urllib库。urllib库的使用方法大家可以百度一下。re模块是python独有的,不需要安装的。requests需要安装,如下

pip install requests

pip install requests 

-i http://pypi.douban.com/simple/ 

--trusted-host pypi.douban.com

下面会使用正则表达的方法一步一步的教大家怎么去抓取网页的信息。

3523c26817f266dd5506e87c7c808193.png

下面以

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/ 

网站为例,抓取当前最新的省份为例。

F12或右击检查

F12或右击检查查看网站的元素,寻找自己需要信息的位置,并观察,如下图

d725c7cb9ee8efafa9bba030baef056c.png

点击红色箭头的位置,选择网页上的自己所需要的信息,就可以快速定位;

如图可以看到我们所需要的信息的位置以及一些特征,可能这个需要大家知道一点前端上的知识。下面就开始抓取网站上的省份信息。

第一次抓取

import reimport requestsclass demo():def __init__(self):try:response=requests.get("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/")
            html=response.text #获取页面的html 
            print(html)
        except:
            print('出错了')if __name__ == '__main__':
    demo()

结果:

2dc2781078f5de7086df69de73a406ae.png

大家可以看出来页面的信息已经获取到了,但是好像有点乱码。

原因是因为没有设置编码方式

第二次抓取

import reimport requestsclass demo():def __init__(self):try:response=requests.get("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/")
            response.encoding='gb2312' #编码转换
            html=response.text #获取页面的html 
            print(html)
        except:
            print('出错了')if __name__ == '__main__':
    demo()

结果:

7fd0861871b367c6c73d7f8a4d5586fe.png

可以看到出现了已经把网页上的信息完整的获取到了。

大家考虑一下为啥我这里用了’gb2312’而不是’utf-8’的方式?

这个取决于网站,怎么知道网站是什么编码的?右击查看网页源代码,看下图

ad4c22440d90c54726e8f182b33030cf.png

圈出来的就是网站的编码方式了。

那么下面就从获取到的网页完整的信息中提取我们需要的信息。

第三次抓取

要获取到想要的省份信息,先观察省份信息的所在位置的特征。

e4103694cc14736682e2a01a3f184319.png

可以看到省份的信息都是在td 标签内,td标签包含了一个a标签,a标签中包含了下一页的链接地址。我们先只获取省份信息。

import reimport requestsclass demo():def __init__(self):try:response=requests.get("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/")
            response.encoding='gb2312' #编码转换
            html=response.text #获取页面的html 
            provincelist=re.findall(r"(.*?)",html)
            for p in provincelist:
                print(p)
        except:
            print('出错了')

if __name__ == '__main__':
    demo()

结果:

816c967829f32310f85d271e7b797882.png

可以获取到所有省份的信息了。

如果还是想要获取二级城市数据,那么我们就要获取a标签中的下级地址,我们还要看一下二级页面我们所要信息的在页面上所在的位置以及特征(与查看省份的一致,不在赘述)。

import reimport requestsimport timeclass demo():def __init__(self):try:base_url='http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/'
            response=requests.get(base_url)
            response.encoding='gb2312' #编码转换
            html=response.text #获取页面的html 
            provincelist=re.findall(r"(.*?)",html)
            provinceUrls=re.findall(r".*?",html)
            #for p in provincelist:
            # print(p)
            for u in provinceUrls:
                #print(u)
                cityurl=base_url+u
                res=requests.get(cityurl)
                res.encoding='gb2312' #编码转换
                reshtml=res.text #获取页面的html 
                citylist=re.findall(r"(.*?)",reshtml)
                for c in citylist:
                    print(c)
                time.sleep(0.5)    
        except:
            print('出错了')

if __name__ == '__main__':
    demo()

结果:

c32da1a765d603fce7b88889b409b69e.png

还顺便把二级城市的区域代码也获取到了。大家也要看到了代码里有一个time.sleep的函数,指的是在延迟,单位是秒。因为该网站是没有robots.txt的信息的,所以在爬取信息时需要注意请求间隔时间。

所以仔细观察一下网站的信息特征,不难发现,如果我们一级一级的往下找就会把所有的最新的省市区以及街道的信息都获取到,这样我们就可以很方便的获取到最新的省市区的信息了。大家可以自己尝试一下。

另外大家可以选择别的年的数据来试试,只需要把链接中的2019改成往年的就行了。

总结

爬虫第一篇推文就先介绍到这。本篇主要给大家介绍一下爬虫方面需要注意的地方、使用vscode开发环境的时候会遇到的问题以及使用正则表达式的方式简单的获取省市区。使用正则的方式抓取网页上的信息还是比较简单的,多多练习,希望大家都能爬虫成功。

下期预告

下次推文还是有两种情况:深度学习教程或爬虫基础教程。不过下篇爬虫基础教程会给大家介绍BeautifulSoup模块以及lxml模块

往期精选(?猛戳可查看)

Python实用教程系列——VSCode Python 开发环境搭建

2020-08-01

4d78b6c922f14064504fd40f79e6be14.png

Python实用教程系列——异常处理

2020-07-05

713b0dd42bf4ee0518e20edd24ddcae5.png

点赞和在看一下吧

404d1632b266e6b211c107e2965102a2.gif
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值