python爬虫_Python玩家的博客-CSDN博客

python爬虫

关注

文章平均质量分 67

关注数：文章数：16 文章阅读量：56954 文章收藏量：94

作者: Python玩家

这个作者很懒，什么都没留下…

展开

专栏收录文章

简单应用Selenium+PhantomJS来抓取煎蛋网妹子图

那天有朋友找我一起抓妹子图片，像我这么正派的人，肯定是要抱着学习的目的……打开网页，哇！又…又要上火了。。。。话不多说，先看看网页吧！熟练的打开网页，找到妹子图，然后F12打开开发者工具，定位，ok，图片地址找到了，so easy~!，我们写入代码看看WTF~!返回了个空列表？加了header也是这样，为啥呢，来打开源码看看原来是js数据，这就麻烦了，难道先...

原创 2018-06-03 09:47:48 · 549 阅读 · 0 评论
Python学习，多进程了解一下！学爬虫不会用多进程能行吗？

python中的多线程其实并不是真正的多线程，如果想要充分地使用多核CPU的资源，在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing，只需要定义一个函数，Python会完成其他所有事情。借助这个包，可以轻松完成从单进程到并发执行的转换本来想写多线程的，但是演示效果并不是很好，就改成进程了。其实多进程没有我们想象的那么难...

原创 2018-08-01 14:31:36 · 411 阅读 · 1 评论
python有哪些好玩的应用实现，用python爬虫做一个二维码生成器

python爬虫不止可以批量下载数据，还可以有很多有趣的应用，之前也发过很多，比如天气预报实时查询、cmd版的实时翻译、快速浏览论坛热门帖等等，这些都可以算是爬虫的另一个应用方向！今天给大家分享一个二维码生成器的爬虫版本实现！爬虫思路网上有很多的二维码自动生成的网页，它可以将文本、名片、wifi分享等等都以二维码的形式生成，只需要用带有识别二维码的app就可以识别，比如手机浏览器一...

原创 2018-07-21 11:45:41 · 946 阅读 · 0 评论
Python老司机手把手带你写爬虫，整站下载妹子图，一次爽个够！

其实很多编程语言都可以做爬虫，例如java、c#、php等等甚至excel都可以抓网页的图表，那么为什么我们要用Python呢？它简单、便捷，而且有好多库可以选择，可以说python是写爬虫的首选了！今天就来带大家写一个简单而又完整的爬虫，我们来抓取整站的图片的，并且保存到电脑上！准备工作工具：Python3.6、pycharm库：requests、re、time、rand...

原创 2018-07-14 14:32:27 · 4111 阅读 · 2 评论
python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

今天给大家分享一个小网站的数据采集，并写到excel里面！分析网站目标网站是“小咪购”，这里有天猫所有的含有购物券的商品信息，我们今天就来抓它吧！随便找一段文字，然后点击右键查看网页源代码，看看是否存在该文字，如果存在，那么这个网页就是静态网站了！很幸运，这个网站居然是静态的。那就简单了，不需要去分析ajax加载数据或者找json包了，直接获取网页源代码==>...

原创 2018-07-24 15:35:17 · 8318 阅读 · 1 评论
用python抓取“3d”彩票数据，怎么分析你说了算！

快下班了，正好准备去买彩票，就顺手写了2个脚本，一个用来下载最近的彩票数据，一个用来统计彩票数字，分享给大家！彩票数据获取并写入excel表格数据来源自己看吧~用外链通不过。。。所用库：xlwt，requests，lxml有几点需要注意的：1、构建列表。因为存入excel文件的时候用的是列表，所以新建一个函数，分别取网页5个数据：时间、期数、开奖数123，然后每一页嵌套...

原创 2018-07-05 10:47:21 · 5793 阅读 · 4 评论
Python学习，还在用正则或者bs4做爬虫吗？来试试css选择器吧

之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现，如果你对web有所涉及，并且比较喜欢css选择器，那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的！安装直接pip安装即可：pip install pyquery安装完成后，运行 pip show pyquery，如果出现相关信息即为安装完成！如果pi...

原创 2018-06-27 16:13:51 · 724 阅读 · 0 评论
Python爬虫基础学习，从一个小案例来学习xpath匹配方法

学习目的是为了实践，而实践又可以加深我们的学习效率，今天给大家带来了lxml库的xpath匹配方法的实例！教程大家网上搜索有很多，我们只看实用功能，当然，如果您已经很熟练了，可以跳过不看的！开始前准备版本：python3.6工具：pycharm、lxml库（pip安装即可）内容：新浪新闻搜索关键字抓取相关信息并保存本地txt文档思路我们先打开网页url，看下它的...

原创 2018-06-19 14:06:28 · 612 阅读 · 0 评论
Python学习汇总，做数据采集的一些小技巧，干货满满

学习Python也有一段时间了，在学习过程中不断的练习学到的各类知识，做的最多的还是爬虫，也就是简单的数据采集，有采集图片（这个最多了。。。），有下载电影的，也有学习相关的比如ppt模板的抓取，当然也写过类似收发邮件，自动登录论坛发帖，验证码相关操作等等！这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，在此总结一下，也分享给正在学习的小伙伴安装相关pytho...

原创 2018-06-30 16:39:20 · 1700 阅读 · 0 评论
Python爬虫，用第三方库解决下载网页中文本的问题

还在辛辛苦苦的查找网页规律，写正则或者其他方式去匹配文本内容吗？还在纠结怎么去除小说网站的其他字符吗？先来看看下面2张图，都是某小说网站的小说内容怎么样，是不是很简洁！这就是今天给大家介绍的库，newspaper库！newspaperpython3.x安装: pip install newspaper3kpython2.7安装: pip install news...

原创 2018-06-26 09:39:25 · 330 阅读 · 0 评论
世界杯快到了，看我用Python爬虫实现（伪）球迷速成！

还有4天就世界杯了，作为一个资深（伪）球迷，必须要实时关注世界杯相关新闻，了解各个球队动态，这样才能在一堆球迷中如（大）鱼（吹）得（特）水（吹），迎接大家仰慕的目光!给大家分享一个快速了解相关信息的办法：刷论坛！我们来一起做个虎扑论坛的爬虫吧！抓包获取虎扑论坛相关帖子内容，逐条显示！先来观察下网页，打开论坛首页，选择国际足球然后往下拉，找到世界杯相关内容这里就是...

原创 2018-06-10 14:24:43 · 1939 阅读 · 6 评论
python爬虫零基础入门——反爬的简单说明

之前在《如何开始写你的第一个python脚本——简单爬虫入门！》中给大家分享了一下写一个爬虫脚本的基本步骤，今天继续分享给大家在初期遇到的一个很烦人的问题——反爬及处理办法！我们的工具及库为：python3.6、pycharm、requests库基本步骤：获取网页源代码——匹配需要的内容——提取并保存。在这中间经常遇到这么几类问题：脚本中获取的网页源代码和网页右键查看的源代码不同...

原创 2018-06-15 20:08:08 · 1167 阅读 · 0 评论
欢迎使用CSDN-markdown编辑器Python爬虫初接触，学会爬虫不抓美女图片干啥！

学习编程语言是很枯燥的，尤其是对一个编程零基础的人来说，更为枯燥！所以我们要从枯燥的学习中找点乐趣和动力！比如，抓点小姐姐的图片我们的目标选择唯一图库，url自己去找【人工呲牙笑】这个网站没有反爬，特别好爬，打开主页后，找到美女图片分类上面分类没有这个分类，自己想办法进入哦。。。然后往下拉，就会发现N多的图集，我们先去找找翻页，记得先打开F12开发者工具，然后选择翻页，查看...

原创 2018-06-13 16:50:46 · 569 阅读 · 0 评论
几个非常适合新手练习python爬虫的网页，总有一款能搞定！

几个非常适合新手练习python爬虫的网页，总有一款能搞定！话不多说，直接干货了！头条图集:抓包获取json数据打开今日头条主页，搜索小姐姐，或者其他你感兴趣的内容，然后点击图集动态加载的json数据就出来了，没有反爬，注意的是，如果不想去内容里面抓图片的话，可以只抓缩略图，就是这个页面显示的图片，它在json数据中的image_list中，注意，将url中的list换成o...

原创 2018-06-06 15:42:05 · 23162 阅读 · 1 评论
非常适合新手的一个Python爬虫项目: 打造一个英文词汇量测试脚本!

最近朋友在苦学英文，但是又不知道自己学的怎么样了，直到有一天，他找到了扇贝网，里面有个“评估你的单词量”功能非常的好，就推荐给我了！今天我们就用python做一个小的爬虫，然后自己写一个脚本来实现这个功能吧！目标：打造一个英文词汇量测试脚本url：扇贝网工具：python3.6、pycharm、requests库思路：和网页一样，总共分三步: 先来看看网页中数据，...

原创 2018-06-05 13:58:57 · 1757 阅读 · 1 评论
Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

昨天有小伙伴找我，新浪新闻的国内新闻页，其他部分都是静态网页可以抓到，但是在左下方的最新新闻部分，不是静态网页，也没有json数据，让我帮忙抓一下。大概看了下，是js加载的，而且数据在js函数中，很有意思，就分享出来给大家一起看看！抓取目标今天我们的目标是上图红框部分，首先我们确定这部分内容不在网页源代码中，属于js加载的部分，点击翻页后也没有json数据传输！但是发现有个...

原创 2018-09-08 00:37:19 · 4869 阅读 · 0 评论

python爬虫

作者: Python玩家

简单应用Selenium+PhantomJS来抓取煎蛋网妹子图

Python学习，多进程了解一下！学爬虫不会用多进程能行吗？

python有哪些好玩的应用实现，用python爬虫做一个二维码生成器

Python老司机手把手带你写爬虫，整站下载妹子图，一次爽个够！

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

用python抓取“3d”彩票数据，怎么分析你说了算！

Python学习，还在用正则或者bs4做爬虫吗？来试试css选择器吧

Python爬虫基础学习，从一个小案例来学习xpath匹配方法

Python学习汇总，做数据采集的一些小技巧，干货满满

Python爬虫，用第三方库解决下载网页中文本的问题

世界杯快到了，看我用Python爬虫实现（伪）球迷速成！

python爬虫零基础入门——反爬的简单说明

欢迎使用CSDN-markdown编辑器Python爬虫初接触，学会爬虫不抓美女图片干啥！

几个非常适合新手练习python爬虫的网页，总有一款能搞定！

非常适合新手的一个Python爬虫项目: 打造一个英文词汇量测试脚本!

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程