python爬虫
文章平均质量分 67
Python玩家
这个作者很懒,什么都没留下…
展开
-
简单应用Selenium+PhantomJS来抓取煎蛋网妹子图
那天有朋友找我一起抓妹子图片,像我这么正派的人,肯定是要抱着学习的目的……打开网页,哇!又…又要上火了。。。。话不多说,先看看网页吧!熟练的打开网页,找到妹子图,然后F12打开开发者工具,定位,ok,图片地址找到了,so easy~!,我们写入代码看看WTF~!返回了个空列表?加了header也是这样,为啥呢,来打开源码看看原来是js数据,这就麻烦了,难道先...原创 2018-06-03 09:47:48 · 502 阅读 · 0 评论 -
Python学习,多进程了解一下!学爬虫不会用多进程能行吗?
python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成从单进程到 并发执行的转换本来想写多线程的,但是演示效果并不是很好,就改成进程了。其实多进程没有我们想象的那么难...原创 2018-08-01 14:31:36 · 349 阅读 · 1 评论 -
python有哪些好玩的应用实现,用python爬虫做一个二维码生成器
python爬虫不止可以批量下载数据,还可以有很多有趣的应用,之前也发过很多,比如天气预报实时查询、cmd版的实时翻译、快速浏览论坛热门帖等等,这些都可以算是爬虫的另一个应用方向!今天给大家分享一个二维码生成器的爬虫版本实现!爬虫思路网上有很多的二维码自动生成的网页,它可以将文本、名片、wifi分享等等都以二维码的形式生成,只需要用带有识别二维码的app就可以识别,比如手机浏览器一...原创 2018-07-21 11:45:41 · 890 阅读 · 0 评论 -
Python老司机手把手带你写爬虫,整站下载妹子图,一次爽个够!
其实很多编程语言都可以做爬虫,例如java、c#、php等等甚至excel都可以抓网页的图表,那么为什么我们要用Python呢?它简单、便捷,而且有好多库可以选择,可以说python是写爬虫的首选了!今天就来带大家写一个简单而又完整的爬虫,我们来抓取整站的图片的,并且保存到电脑上!准备工作工具:Python3.6、pycharm库:requests、re、time、rand...原创 2018-07-14 14:32:27 · 3929 阅读 · 2 评论 -
python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件
今天给大家分享一个小网站的数据采集,并写到excel里面!分析网站目标网站是“小咪购”,这里有天猫所有的含有购物券的商品信息,我们今天就来抓它吧!随便找一段文字,然后点击右键查看网页源代码,看看是否存在该文字,如果存在,那么这个网页就是静态网站了!很幸运,这个网站居然是静态的。那就简单了,不需要去分析ajax加载数据或者找json包了,直接获取网页源代码==>...原创 2018-07-24 15:35:17 · 8134 阅读 · 1 评论 -
用python抓取“3d”彩票数据,怎么分析你说了算!
快下班了,正好准备去买彩票,就顺手写了2个脚本,一个用来下载最近的彩票数据,一个用来统计彩票数字,分享给大家!彩票数据获取并写入excel表格数据来源自己看吧~用外链通不过。。。所用库:xlwt,requests,lxml有几点需要注意的:1、构建列表。因为存入excel文件的时候用的是列表,所以新建一个函数,分别取网页5个数据:时间、期数、开奖数123,然后每一页嵌套...原创 2018-07-05 10:47:21 · 5261 阅读 · 4 评论 -
Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧
之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的!安装直接pip安装即可:pip install pyquery安装完成后,运行 pip show pyquery,如果出现相关信息即为安装完成!如果pi...原创 2018-06-27 16:13:51 · 670 阅读 · 0 评论 -
Python爬虫基础学习,从一个小案例来学习xpath匹配方法
学习目的是为了实践,而实践又可以加深我们的学习效率,今天给大家带来了lxml库的xpath匹配方法的实例!教程大家网上搜索有很多,我们只看实用功能,当然,如果您已经很熟练了,可以跳过不看的!开始前准备版本:python3.6工具:pycharm、lxml库(pip安装即可)内容:新浪新闻搜索关键字抓取相关信息并保存本地txt文档思路我们先打开网页url,看下它的...原创 2018-06-19 14:06:28 · 562 阅读 · 0 评论 -
Python学习汇总,做数据采集的一些小技巧,干货满满
学习Python也有一段时间了,在学习过程中不断的练习学到的各类知识,做的最多的还是爬虫,也就是简单的数据采集,有采集图片(这个最多了。。。),有下载电影的,也有学习相关的比如ppt模板的抓取,当然也写过类似收发邮件,自动登录论坛发帖,验证码相关操作等等!这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,在此总结一下,也分享给正在学习的小伙伴安装相关pytho...原创 2018-06-30 16:39:20 · 1635 阅读 · 0 评论 -
Python爬虫,用第三方库解决下载网页中文本的问题
还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗?先来看看下面2张图,都是某小说网站的小说内容怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库!newspaperpython3.x安装: pip install newspaper3kpython2.7安装: pip install news...原创 2018-06-26 09:39:25 · 277 阅读 · 0 评论 -
世界杯快到了,看我用Python爬虫实现(伪)球迷速成!
还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!抓包获取虎扑论坛相关帖子内容,逐条显示!先来观察下网页,打开论坛首页,选择国际足球然后往下拉,找到世界杯相关内容这里就是...原创 2018-06-10 14:24:43 · 1846 阅读 · 6 评论 -
python爬虫零基础入门——反爬的简单说明
之前在《如何开始写你的第一个python脚本——简单爬虫入门!》中给大家分享了一下写一个爬虫脚本的基本步骤,今天继续分享给大家在初期遇到的一个很烦人的问题——反爬及处理办法!我们的工具及库为:python3.6、pycharm、requests库基本步骤:获取网页源代码——匹配需要的内容——提取并保存。 在这中间经常遇到这么几类问题:脚本中获取的网页源代码和网页右键查看的源代码不同...原创 2018-06-15 20:08:08 · 1109 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器Python爬虫初接触,学会爬虫不抓美女图片干啥!
学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片我们的目标选择唯一图库,url自己去找【人工呲牙笑】这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类上面分类没有这个分类,自己想办法进入哦。。。然后往下拉,就会发现N多的图集,我们先去找找翻页,记得先打开F12开发者工具,然后选择翻页,查看...原创 2018-06-13 16:50:46 · 508 阅读 · 0 评论 -
几个非常适合新手练习python爬虫的网页,总有一款能搞定!
几个非常适合新手练习python爬虫的网页,总有一款能搞定! 话不多说,直接干货了!头条图集:抓包获取json数据 打开今日头条主页,搜索小姐姐,或者其他你感兴趣的内容,然后点击图集动态加载的json数据就出来了,没有反爬,注意的是,如果不想去内容里面抓图片的话,可以只抓缩略图,就是这个页面显示的图片,它在json数据中的image_list中,注意,将url中的list换成o...原创 2018-06-06 15:42:05 · 22346 阅读 · 1 评论 -
非常适合新手的一个Python爬虫项目: 打造一个英文词汇量测试脚本!
最近朋友在苦学英文,但是又不知道自己学的怎么样了,直到有一天,他找到了扇贝网,里面有个“评估你的单词量”功能非常的好,就推荐给我了! 今天我们就用python做一个小的爬虫,然后自己写一个脚本来实现这个功能吧!目标:打造一个英文词汇量测试脚本url:扇贝网工具:python3.6、pycharm、requests库思路:和网页一样,总共分三步: 先来看看网页中数据,...原创 2018-06-05 13:58:57 · 1663 阅读 · 1 评论 -
Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程
昨天有小伙伴找我,新浪新闻的国内新闻页,其他部分都是静态网页可以抓到,但是在左下方的最新新闻部分,不是静态网页,也没有json数据,让我帮忙抓一下。大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看!抓取目标今天我们的目标是上图红框部分,首先我们确定这部分内容不在网页源代码中,属于js加载的部分,点击翻页后也没有json数据传输!但是发现有个...原创 2018-09-08 00:37:19 · 4766 阅读 · 1 评论