自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 docker中将项目映射到容器中

安装DOCKER已安装;步骤1. 拉取python3.6的镜像docker pull python:3.62. 创建容器并将本地文件夹和端口映射到容器中, 容器取名为python,":"前为本地文件夹,后为容器文件夹docker create -it -p 58000:58000 -v /d/DOCKER/home/www:/home/--name pyth...

2019-07-28 13:31:21 1331

原创 协程大批量爬取是要被封IP的,最优秀的方法就是在被封IP时候立马切换IP

一. 多协程爬虫遇到的难点    之前本着一封IP就切换IP的原则做了个协程爬虫。但是操作并发运行的爬虫和单线程的爬虫的难度真的是云泥之别。因为是并发运行的爬虫,用的IP是同一个,被封的时候当然是全部IP一起封了。    而执行操作的时候,又会每个协程换一次,这就会导致IP的浪费和爬虫运行的缓慢。二. 解决方案    并发问题,自然要用到协程间通讯,Event。具体思想就是,当一个协程被封IP了,...

2018-07-06 22:49:39 1700 2

原创 构建免费的IP池,质量差得没法看。购买代理,又觉得暂时没必要。所以就构建一个重连路由的工具吧。

emmm, 最近在家写爬虫,遇到最多同时又绕不开的就是IP封禁。为了对付IP封禁,我曾经尝试了构建维护自己的IP池,从网上各大网站获取它们提供的免费IP,可用率简直低得可怕。毕竟免费的大家都可以拿来用,被封了也很正常。Pass购买代理IP,这个的却是最简便的方法,仅仅需要付钱后调用一个接口就好,但是各大代理商的代理IP的质量参差不齐,并且速度肯定是不如自家网络的。因此,当不需要上网只需要运行爬虫的...

2018-07-03 21:30:17 1350

原创 6.爬虫必备功能整理

设置proxy和headers1. 抓取动态页面所需的selenium+PhantomJSdesired_capabilities = DesiredCapabilities.PHANTOMJS.copy()desired_capabilities["phantomjs.page.settings.userAgent"] = r'Mozilla/5.0 (Windows NT 10.0; WOW6

2017-09-25 17:13:01 3826

原创 5. 抓取微信号的文章

平时在看公众号的时候,一直在想怎么才能抓取里面的文章。 知道网址就很容易抓取了,而每篇文章右上角都有一个用Safari打开的入口。把网址拷下来,抓取还不是易如反掌吗。 不过既然要用爬虫来抓取,那还是要批量显得更有效率一点。那么现在,在搜狗和微信公众号的合作下,我们可以在PC端直接浏览公众号文章,及其列表!!燃鹅,我这次的目标是平时挺喜欢看的DeepTech深科技。 为了更方便,我就直接锁定这个公

2017-09-12 15:38:18 687

原创 4. 化平淡为神奇的BeautifulSoup

BeautifulSoup介绍这玩意啊,是用来解析复杂的网络结构的。 例如最普通的网页:html head title--title head body h1--h1 div--div bodyhtml如果是平时,我们要取得h1标签,似乎并没有办法。 但是现在我们有了BeautifuSou

2017-07-30 13:49:39 260

原创 3. 用爬虫实现翻译

1. 首要任务是分析流程当我们在百度翻译中点下面那个按键的时候会发生什么?我们可以在浏览器自带的开发者工具中看到。既然是点击即是提交数据,我们肯定是从POST方法入手。 Request URL 是我们请求的URL; Form Data 则是我们提交的表单;好啦,这样就万事具备啦。2. 编写我们的代码# -*- coding:UTF-8 -*- from urllib import reques

2017-07-29 13:45:51 352

原创 2. 极其简便的Mysql操作

1. Mysql数据库今天的主题是操作数据库。 那首先呢,就是要安装一个数据库。 https://www.mysql.com/ –> 这里是 Mysql 的官网。2. pymysqlPython并没有内置的Mysql工具。 不过python出了名的开源库多, 其中一个佼佼者则是pymysql。 开源库,我一般采取 pip3 install xxx来安装。 以下这段代码就是要获取连

2017-07-25 22:06:16 199

原创 1. 初学python爬虫

初学python爬虫看了几个星期廖雪峰老师的python教程之后,总发现学完新的东西,旧的就忘了。所以还是打算直接上路写爬虫了,边写边学python的基础知识。python版本:python3.5然而,作为一个萌新,我当然还是从urllib库开始学起。 要用这个工具,我当然是要去了解它怎么用。所以我去了官网查了一查。 (我好像找不到中文文档….)urllib.request是用来打开和读取URL

2017-07-23 01:58:17 413 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除