自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 Python 爬虫 不得不说的 清洗

今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗。为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候。如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规则比较少,对于国外的网站,由于老外崇尚自由,在他们的网站中最直接的体现就是一个网站...

2017-12-28 14:42:00 268

转载 python中decode和encode的区别

#-*-coding:utf-8import sys'''*首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。decode的作用是将其他编码的字符串转换成unicode编码,如s...

2017-12-28 14:42:00 314

转载 基于tornado的爬虫并发问题

tornado中的coroutine是python中真正意义上的协程,与python3中的asyncio几乎是完全一样的,而且两者之间的future是可以相互转换的,tornado中有与asyncio相兼容的接口。下面是利用tornado中的coroutine进行并发抓取的代码:HEADERS = {'Accept': 'text/html,application/xht...

2017-12-28 14:42:00 56

转载 Python——验证码识别 Pillow + tesseract-ocr

至于安装教程在这里不再重复说了,可以参考博客,网上有大把的教程https://blog.csdn.net/testcs_dn/article/details/78697730要是别的验证码是如下类型的       Python 代码如下#!/usr/bin/python# -*- coding:utf-8 -*-from P...

2017-12-28 14:41:00 75

转载 Python Tensorflow CNN 识别验证码

Python+Tensorflow的CNN技术快速识别验证码文章来源于:https://www.jianshu.com/p/26ff7b9075a1验证码处理的流程是:验证码分析和处理——tensorflow安装——模型训练——模型预测需要的准备。  1. 安装TensorFlow  2.PIL  3. numpy  4. 用于训练的图片...

2017-12-28 14:30:00 223

转载 爬虫如何解决验证码的问题

今天要聊的就是在爬虫遇到验证码,如何去解决。  1.前言:关于验证码,我觉得是很low逼的技术,但是很多面试官都会问到如何解决验证码,好像是能识别验证的就代表了爬虫工程师的技术很牛逼,相反,爬虫工程师就是菜鸟。我觉得以此来评价爬虫工程师的水平高低,是非常不合理的。  2. 网站为何要用验证码?    网站担心别人暴力破解刷票、论坛灌水、刷页,防止爬虫爬取数据,防止别人利...

2017-12-28 14:30:00 1032

转载 Python 爬虫 数据清洗 去掉 超链接

有时候我们需要清洗数据,里面有超链接,怎么去掉他们,比如下面的问题<divclass="lot-page-details"><ulclass="info-list"><liclass="lot-info-item"><p><strongclass="section-header">Provenance</s...

2017-12-28 14:29:00 1302

转载 Python selenium 滚动条 详解

  在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。    selenium.common.exceptions.WebDriverException: Message: unknown error: Element is not clickable at po...

2017-12-28 14:29:00 432

转载 正则和xpath在网页中匹配字段的效率比较

1. 测试页面是https://www.hao123.com/,这个是百度的导航2. 为了避免网络请求带来的差异,我们把网页下载下来,命名为html,不粘贴其代码。3.测试办法:  我们在页面中找到 百度新闻 关键字的链接,为了能更好的对比,使程序运行10000次,比较时间差异:      1.正则编码及其时间   start_time...

2017-12-21 11:08:00 262

转载 Python 爬虫 大量数据清洗 ---- sql语句优化

1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司,  并且要求字段 time(时间) 大于7月一号,小于10月31号。2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1...

2017-12-19 15:54:00 327

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除