python第一个

陈win

于 2018-11-08 21:28:03 发布

阅读量121

点赞数

分类专栏：爬虫正则表达式文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41961383/article/details/83868739

版权

爬虫同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

正则表达式

1 篇文章 0 订阅

订阅专栏

python第一个爬虫

之前的知识没听，这节课听的挺认真，觉得python挺有趣，想记录一下
是用正则表达式取出页面内容，代码也很简单，做个纪念吧
据说还可以用beautifulsoup，但我不会用
正则表达式，真好用，哈哈哈哈
! 这是urllib包的解释
这是爬的网址
https://mkt.51job.com/tg/sem/pz_2018.html?from=baidupz

代码如下：
import urllib.request//首先导入urllib这个包，request方法可用于打开和读取网页内容
response=urllib.request.urlopen(“https://mkt.51job.com/tg/sem/pz_2018.html?from=baidupz”)//把打开的网页赋给response
html=response.read()//用response的read方法读取网页
html=html.decode(“GBK”)//把二进制化为字符型
print(html）//输出网页代码内容
在这里插入图片描述

想要取出应届生求职，简历中心等

(.*)

类型的值
正则表达式中 . 表示取出所有值，非常厉害
*表示前面的表达式出现0次或多次
+表示出现1次或多次
还有很多表达，之后有机会再写

代码如下：
import re//导入正则表达式这个包
p=re.findall(’

(.*)

’,html)//findall方法找到这些值，找到html当中运用此表达式的内容

成功啦！！！
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python第一个

python第一个爬虫之前的知识没听，这节课听的挺认真，觉得python挺有趣，想记录一下是用正则表达式取出页面内容，代码也很简单，做个纪念吧据说还可以用beautifulsoup，但我不会用正则表达式，真好用，哈哈哈哈!这是爬的网址https://mkt.51job.com/tg/sem/pz_2018.html?from=baidupz代码如下：import urllib.r...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。