python_spider
彬小二
喜欢旅游与美食的程序员。
展开
-
【Python爬虫】Requests 请求并读写、保存到excel文件中
爬取前程无忧职位信息此次我们用简单的爬虫来展示如何把爬到提取出的信息保存的excel文件中.(ps:首先你要安装好模块openpyxl否则就点击右上角离开,百度搜素安装.)选前程无忧的网页作为案例是因为主编最近在看看工作的消息,想想就顺手写了一个为方便寻找满足自己要求的工作.为简化我们爬虫的需求,我们已经在前程无忧上的页面选择自己对应的职位需求和职位地区.我选的是杭州+互联网/电子商务...原创 2018-09-18 15:33:25 · 6775 阅读 · 0 评论 -
Selenium实践->拉钩网招聘信息
在阅读以下内容前你需要懂得Selenium的一些简要操作,如果不会请查看上Selenium的简要操作。爬取拉钩网站分为三步:获取列表页->获取详情页->点击获取下个列表页,话不多说直接贴代码吧!from selenium import webdriverfrom lxml import etreeimport timeimport reclass Lagou(): ...原创 2019-05-01 22:21:23 · 244 阅读 · 0 评论 -
Selenium的基础使用
安装:pip install selenium为什么要用selenium?什么是selenium?Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏以下是一些必备的基础操作惠存并请实操...原创 2019-05-01 21:06:51 · 236 阅读 · 0 评论 -
【Python爬虫】Session攻破爬虫登陆验证码
手把手教你用Session破解验证码实现爬虫首先你要能明白这样一个场景:第一个请求利用post()方法登陆了某个页面,第二次想获取成功登陆后的页面信息,又用了一次get()方法去请求个人信息页面。这实际上打开了两个浏览器,就是相当于两个完全不同的会话,这当然不能获取个人信息。那我们改怎么办呢?Bingo!两个页面使用一样的Cookies就可以!但不觉得手动配置Cookies...原创 2019-03-12 16:42:45 · 4190 阅读 · 3 评论 -
数据分析与可视化(中文词云)->Python招聘
帮你寻找你想要的岗位!现在很多人都习惯在招聘网站搜索岗位,但五花八门的岗位、薪资、岗位要求使你一个个对比浪费大量不必要的时间。作为程序员当然要解决繁琐的问题,所以我们要方便快捷找到自己想要的岗位就要进行采集数据和进行分析了。我们需要做好以下准备:要安装好以下库:requets、lxml、pymysql、matplotlib、jieba、wordcloud这次我们将参考Boss直聘下...原创 2019-02-28 13:07:56 · 1314 阅读 · 0 评论 -
【多线程】全栈下载笔趣阁小说(保存数据库)
爱看小说的程序猿必备!首先我们需要安装以下库:python3.5requestspymysqllxmlqueuethreading分析笔趣阁小说网站此页面有改网站的所有小说章节目录的得地址...原创 2019-02-27 15:17:55 · 2169 阅读 · 2 评论 -
【Python爬虫】爬取斗鱼直播信息(Fiddler抓包分析)
大年初七了还不开始学习嘛?过年期间一直再在看斗鱼直播平台的直播,学习主播的操作(骚套路)想着等有机会也来实战一波。看着看着就很想分析一下到底哪些主播观看的人数比较多,又为啥会有这么多人看。所以我们就要用爬虫来采集斗鱼直播平台上的数据了。准分析网页打开斗鱼直播平台网页按F12进行分析(此步骤不用教了吧),我们发现每翻动一页网址没有发生变化且代码中页数也不是具体的url而是(看图),所以我们...原创 2019-02-11 17:34:52 · 7500 阅读 · 1 评论 -
【Python爬虫】多线程爬取糗事百科【最新版本】
多线程爬虫项目示意图首先,我们要明确知道多线程以下几个重点:1.要等目标线程都结束才能使主线程结束:主线程结束所有线程都会随之停止则线程可能还未完全跑完2.多个线程间要对同一数据进行操作时要添加互斥锁3.多个线程之间通信要用队列(先进先出)此次多线程爬虫我们要写两个多线程:1.爬取网页的多线程 2.解析网页的多线程import requestsimport threadingf...原创 2019-02-16 15:15:15 · 486 阅读 · 0 评论 -
爬虫数据以CSV、EXCEL、TXT、图片等的方式存储(python3.6)
慢慢的积累原创 2019-01-30 12:47:29 · 1182 阅读 · 0 评论 -
python爬虫获取大量免费有效代理ip--有效防止ip被封
以后再也不用担心写爬虫ip被封,不用担心没钱买代理ip的烦恼了在使用python写爬虫时候,你会遇到所要爬取的网站有反爬取技术比如用同一个IP反复爬取同一个网页,很可能会被封。如何有效的解决这个问题呢?我们可以使用代理ip,来设置代理ip池。现在教大家一个可获取大量免费有效快速的代理ip方法,我们访问西刺免费代理ip网址这里面提供了许多代理ip,但是我们尝试过后会发现并不是每一个都是有效的。...原创 2019-01-23 16:49:56 · 6311 阅读 · 0 评论 -
正则表达式操作手册
正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。匹配单个字符a-z 0-9 ?!@等等 匹配对应的指定字符串. 匹配任意一个字符(除了\n)[] 匹配[]中列举的字符\d 匹配数字,0-9\D 匹配非数字,即不是数字\s 匹配空白,即空格,tab键\S 匹配非空白\w 匹配单词字符,即a-z、A-Z、0-9、_\W 匹配非单词字符匹配多个...原创 2019-05-04 20:01:21 · 262 阅读 · 0 评论