![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
hp_cpp
这个作者很懒,什么都没留下…
展开
-
python2.7.x+request+xpath爬取腾讯招聘信息
依然采用是requests和xpath,因为是简单爬虫的入门教程,边学边记录。腾讯招聘的url是https://hr.tencent.com/position.php点击下面的第2页,得到url:https://hr.tencent.com/position.php?&start=10#a再点击第一页,得到url:https://hr.tencent.com/position.php...原创 2018-12-08 13:54:43 · 391 阅读 · 0 评论 -
python2.7.x+requests+正则表达式爬取古诗网诗词
这次用正则表达式进行爬取链接地址:https://www.gushiwen.org/default_1.aspx同样是爬取前7页的数据#!/usr/bin/env python # -*- coding:utf-8 -*-import requestsimport redef parse_page(url): headers = { 'User-Agen...原创 2018-12-08 15:31:35 · 354 阅读 · 0 评论 -
python2.7.x+requests+正则表达式爬取《糗事百科》段子
糗事百科url为https://www.qiushibaike.com/text/page/1/其中后面的/1/表示第几页,这里只爬取前面7页,具体看下面的代码。(在chrome浏览器中,利用开发者工具,查看到的元素和在pycharm中requests.get请求下来的网页不一样,标签变了,导致按照视频教程的正则匹配不到。于是,自己在pycharm中查看标签,重新写正则匹配式。)#!/usr...原创 2018-12-08 17:51:22 · 260 阅读 · 0 评论 -
pytho2.7.x+requests+xpath爬取电影天堂
python2.7.x,和python3.x处理中文乱码方式不一样。遇到问题就百度,遇到python2的中文乱码问题可以参考这几篇博客:https://blog.csdn.net/hp_cpp/article/details/80953508https://blog.csdn.net/hp_cpp/article/details/80997208https://blog.csdn.net/h...原创 2018-12-06 10:11:41 · 2307 阅读 · 0 评论