- 博客(335)
- 收藏
- 关注
转载 TypeError: sequence item 0: expected string, Tag found
原始代码:soup = BeautifulSoup(result, 'html.parser')content_list = soup.find_all('p', attrs={"class": "art_p"})content = '<br/>'.join(content_list)报错内容是:Traceback (most recen...
2018-11-27 17:54:00
216
转载 MySQL 数据的 截取,数据清洗
Mysql字符串截取函数SUBSTRING的用法说明函数: 1、从左开始截取字符串 left(str, length) 说明:left(被截取字段,截取长度) 例:select left(content,200) as abstract from my_content_t 2、从右开始截取字符串 right(str, length) 说明:right(...
2018-11-21 11:04:00
120
转载 MySQL (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' ...
(1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1")针对MySQL的这个错误,修改方法是set names utf8mb4;SET CHARACTER SET utf8mb4;SET character_se...
2018-10-19 10:50:00
1697
转载 微博爬虫 ----- 微博发布时间清洗
from datetime import datetimefrom datetime import timedeltaif "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M')elif "分钟" in publish_time: ...
2018-10-19 09:28:00
271
转载 ReferenceError: weakly-referenced object no longer exists Python kafka
Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists。Exception in thread 14: pykafka.OwnedBroker.queue_reader for broker 101:Traceback (most recent call last): File ...
2018-10-08 13:53:00
1629
转载 爬虫工程师最牛逼的地方是什么???
爬虫工程师最牛逼的地方是什么???爬虫工程师最牛逼的地方是什么???爬虫工程师最牛逼的地方是什么???今天突然想到了这个问题,是因为解决工作的时候,突然想到了这个问题,我的答案是:爬虫不在乎你每天爬取多少数据,不在乎你爬取多少网站,而是自己写的代码,运行错误的时候能随时的去改正这个错误,我认为这个是牛逼的地方。有人会说了,做web网站的时候,也会遇到错误,...
2018-09-26 11:08:00
170
转载 爬虫 解决302 问题
一:问题描述: 爬虫微博信息,出现302跳转, 比如访问的URL是:https://weibo.com/2113535642?refer_flag=1001030103_ (图片中标记为1) 然后跳转的URL是:https://weibo.com/sgccjsdl?refer_flag=1001030103_&is_hot=1(图片中标记为2...
2018-09-21 18:42:00
1649
转载 Python 字符串过滤
需求:str1 = """"<div class="m_wrap clearfix"><ul class="clearfix"><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><b...
2018-09-06 16:39:00
106
转载 python 验证码识别示例(二) 复杂验证码识别
在这篇博文中手把手教你如何去分割验证,然后进行识别。一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识...
2018-08-10 17:55:00
816
转载 python 验证码识别示例(一) 某个网站验证码识别
某个招聘网站的验证码识别,过程如下一: 原始验证码:二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片三: 通过观察,发现该验证码有折...
2018-08-03 18:07:00
272
转载 爬虫 大规模数据 采集心得和示例
本篇主要介绍网站数据非常大的采集心得1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机硬件资源等。这里我姑且把一个网站超过一千万个URL链接的叫做数据量大的网站。...
2018-08-01 11:52:00
540
转载 Python 爬虫实例(15) 爬取 百度百聘(微信公众号)
今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考直接上代码:#-*-coding:utf-8-*-from common.contest import *def spider(): headers = { "Host":"zhaopin.baidu.com", "Connection":"keep-aliv...
2018-07-30 17:56:00
151
转载 爬虫 修改 下拉框
爬取某个网站,可以通过修改下拉框来实现数据批量加载上图我们可以看到 view 下面的下拉框 的值是25 ,50 ,100 ,200。我们把200的值修改为5200,然后提交页面然后直接出来所有的数据,不在需要做翻页:爽不爽啊,请求的时候注意把cookie复制到请求头里面,有些网站是通过cookie控制翻页的转载于:h...
2018-07-17 15:57:00
199
转载 验证码识别之图像切割算法(三) 连通域分割
切割前: 切割后: 代码:#-*-coding:utf-8-*-from PIL import Imageimport queuedef cfs(img): """传入二值化后的图片进行连通域分割""" pixdata = img.load() w, h = img.size vi...
2018-07-10 18:30:00
321
转载 验证码识别之图像切割算法(二)
备注(易拍全球)切割前: 切割后: 切割前: 切割后: 好了,上代码:#-*-coding:utf-8-*-from PIL import Imagedef smartSliceImg(img, outDir...
2018-07-10 17:15:00
465
转载 验证码识别之图像切割算法(一)
原来验证码:切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 直接上代码:#-*-coding:utf-8-*-from PIL import Im...
2018-07-07 16:52:00
523
转载 验证码识别 图像降噪 算法 Python (二)
处理器图像:处理后图像:代码:from PIL import Imageimage = Image.open('4.jpg')image = image.convert('L')image.show()import numpy as npimage = np.asarray(image)image = (image >...
2018-07-05 17:48:00
197
转载 验证码识别 图像降噪 Python (一)
原始图片:降噪后的图片实现代码:# coding:utf-8import sys, osfrom PIL import Image, ImageDraw# 二值数组t2val = {}def twoValue(image, G): for y in xrange(0, image.size[1...
2018-06-27 15:59:00
206
转载 验证码识别一般思路
在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮度很高的图像2)平均值法:命R、G、B的值等于三者的平均值,即R=G=B=avg(...
2018-06-24 00:50:00
290
转载 爬虫对自己服务器 CPU,内存和网速的影响
今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线程去写爬虫的时候,速度并不慢,这是为何呢?因为爬虫是偏向于io的,网络IO和磁盘i...
2018-06-18 15:51:00
1462
转载 怎样将包含元组的列表转换为字典?
原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action', 'Browse')]转换结果是:{'language': '[1,g]', ...
2018-06-08 18:17:00
966
转载 selenium 实现网页截图
使用webdriver提供的save_screenshot方法:from selenium import webdriverdriver = webdriver.Chrome()driver.get('https://www.duba.com/?f=liebaont')driver.save_screenshot('D:/111.PNG')driver.q...
2018-06-08 10:04:00
131
转载 爬虫遇到的坑——发现你是爬虫抛出假数据
在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下,最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据:解决办法:每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。转载于:https://w...
2018-06-05 17:32:00
546
转载 Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商)
有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址。本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程。一:爬虫的目标:打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面我们的目标是 点击找车,然后出现如下图 我们要把图中的信息抓取...
2018-05-29 16:57:00
735
转载 Python 爬虫实例(14) 爬取 百度音乐
#-*-coding:utf-8-*-from common.contest import *import urllibdef spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语','民...
2018-05-13 23:49:00
379
转载 取一个字符串的所有靠近前面的大写字母
比如有这样的字符串TWO INDUSTRIAL STYLE WALL LIGHTS also a ceramic figure of a cobbler and a group of minor pictures 希望得到的是: TWO INDUSTRIAL STYLE WALL LIGHTS 直接上代码aa = "NINE CARAT GOLD GAR...
2018-04-25 16:27:00
129
转载 爬虫 配置文件
# coding:utf-8import random, reimport json, timeimport uuidfrom bs4 import BeautifulSoupimport threadingimport requestsimport MySQLdbfrom lxml import etreefrom selenium import...
2018-04-25 13:32:00
206
转载 爬虫过程中的 数据插入 问题及其解决方案
在爬虫的过程过,我们有时候往往是开多线程或者多进程或者是协程,有时间下载速度能达到2兆左右的数据,如果和这些数据插入到数据库中,使我们必须解决的问题:目前去搞个数据库集群或者其他的对硬件的方案,可能是大公司无所谓,小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题,主要简单的介绍两种方案第一种方案:批量插入: 因为爬取的数据量很大,我们的服务器一分钟能...
2018-03-29 09:47:00
298
转载 Python 爬虫实例(13) 下载 m3u8 格式视频
Python requests 下载 m3u8 格式 视频最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧:附图:抓包分析过程直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行百度吧。完整下载代码:#cod...
2018-03-29 09:47:00
994
转载 MySQL 两个数据库表中合并数据
两个数据库表中合并数据如果有 t1 和 t2 两个数据库表格,它们两个对应的字段是相同的。如何将 t2 的数据插入到t1中去呢?insert into t1 select * from t2INSERT INTO domestic_auction_artron_2018_detail_info_1_4_all SELECT *FROM domestic...
2018-03-29 09:03:00
4422
转载 HTTP 请求头 详解
转载:https://kb.cnblogs.com/page/92320/HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括message-header和message-body两部分。首先传递message-hea...
2018-03-29 09:02:00
109
转载 爬虫的本质是什么?
来源于:http://www.sohu.com/a/168371748_714863很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。分布式爬虫只...
2018-03-29 09:02:00
647
转载 使用 MD5 加密 去重对插入的影响
现在有3000条数据,需要插入到数据库中去,使用的是对链接进行MD5加密,hashcode = md5(str(item_url))然后在数据库中设置 hashcode 为UNIQUE索引3000条数据全部插入完毕,耗时是32s不使用MD5加密,耗时30秒。结论:去重对时间影响不大转载于:https://www.cnblogs.com/xuchunlin/p/8616604.ht...
2018-03-21 13:53:00
124
转载 Python 爬虫 使用正则去掉不想要的网页元素
在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢?例如:下面的问题第一种情况<ahref="http://artso.artron.net/auction/search_auction.php?keyword=%E6%9E%97%E7%BB%8D%E5%91%A8"target="_blank">林绍周(明)<...
2018-03-20 15:20:00
781
转载 Python 图像下载解决图像损坏
在下载图片的过程中,经常会发现图片损坏,下面提供了两种解决方法:方法一: if response.status_code == 200: print '==================================================' if not os.path.exists(dir_path): ...
2018-03-19 10:05:00
1155
转载 Python 爬虫 解决escape问题
爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是 亞洲私人珍藏賣,令仝好分享...
2018-03-15 14:06:00
238
转载 python 爬虫 重复下载 二次请求
在写爬虫的时候,难免会遇到报错,比如 4XX ,5XX,有些可能是网络的原因,或者一些其他的原因,这个时候我们希望程序去做第二次下载,有一种很low的解决方案,比如是用 try except try: -------except: try: -------- except: try: ...
2018-03-14 10:50:00
262
转载 TCP协议的三次握手四次挥手
IP协议、HTTP协议、TCP协议、TCP/IP 协议我们经常遇到,而且初学的时候容易弄混。那么他们之间有什么关系呢?重点内容1、什么是TCP/IP 协议TCP/IP不是一个协议,而是一个协议族的统称。里面包括IP协议、HTTP协议、TCP协议等。而三次握手四次挥手就发生在TCP协议中。TCP/IP协议栈主要分为四层:应用层、传输层、网络层、数据链路层。每层都有相应的协议,具...
2018-03-06 12:54:00
83
转载 Python 爬虫实例(12)—— python selenium 爬虫
# coding:utf-8from common.contest import *def spider(): url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79" chromedriver = 'C:/Users/xuchunlin/AppData...
2018-02-11 14:43:00
131
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅