爬虫
文章平均质量分 71
SunLight Jr
自由思想,独立精神。
展开
-
ubuntu mysql | 彻底卸载mysql并且重新安装[亲自实践,绝对有效]
转自:http://www.jianshu.com/p/c76b31df5d09首先删除mysql:sudo apt-get remove mysql-*然后清理残留的数据dpkg -l |grep ^rc|awk '{print $2}' |sudo xargs dpkg -P它会跳出一个对话框,你选择yes就好了然后安装mysqlsudo apt-get inst...转载 2018-10-25 12:24:58 · 262 阅读 · 0 评论 -
Python爬虫实习笔记 | Week5 Daliy工作内容概要与反思
2018/11/121.所思所想:今天上午搞分布式爬虫项目,发现自己还是无法跑通,希望自己熟练之后能够顺利解决。下午就是把自己的想法付诸实践,就是将后台脚本进行封装,从而有利于复用,自己有一本《重构》的书,很有可能对自己这方面的想法有帮助,等《国富论》看完后,就看这本书。晚上自己的时间利用的不好,原因在于没有制定比较明确的学习目标。我觉得合理的时间是5:30下班,6:00吃完饭,6:50到...原创 2018-11-20 09:11:54 · 869 阅读 · 0 评论 -
Python爬虫项目实战3 | 图片文字识别(以验证码识别为例)
1.项目背景我在实习过程中,当我抓取环保平台相关数据时,常常发现有图片的情况,比如以下这种图片,所以抓取这种图片中的信息是我进行图片文字识别的动力:2.项目思路因为在某一网站中有大量这种想要抓取的图片,所以我的思路是,1.先抓取这些图片的名称和URL;2.然后再根据这些URL得到图片信息;3.然后识别信息。3.验证码图片识别示例【1】首先,我们可以找一个有很多验...原创 2018-11-24 12:47:11 · 2315 阅读 · 0 评论 -
Python爬虫实习笔记 | Week7 Daliy工作流水
2018/11/261.所思所想今天决心把一周的任务全部完成,这样,我就能安心做好自己的事情,之前制定好的计划——11,12月学完Python和MySQL,不能有任何妥协,在12月中旬前把Python核心编程前8Chapters及流畅的Python看完,如果需要花晚上时间也在所不惜。12月中旬到下旬,看完MySQL前8chapters。路漫漫,自己需要提升的地方还有很多。2.工作【1】今天...原创 2018-12-05 10:37:40 · 741 阅读 · 0 评论 -
Python爬虫实习笔记 | Week8 Daliy工作流水
2018/12/31.所思所想今天时间过得好快,自己还有很多事情没有做好,从今天起,每天解决一个公司项目中遇到的难题,这样,才能将自己所学运用于实践。2.工作暂时将《核心编程》的数据库编程部分看完,这样,之后更改时间更新的代码会游刃有余。之前的《核心编程》多线程编程以及网络编程还需要细细总结。2018/12/41.所思所想今天主要可以做自己的事情,这真的是一件很爽的事情,主要解决...原创 2018-12-17 09:13:20 · 398 阅读 · 0 评论 -
Python爬虫实习笔记 | Week9 Daliy工作流水
2018/12/101.所思所想今天压力还蛮大,因为自己开始接触更多的维度,需要实现更加有难度的功能,但自己应迎难而上,有百折不挠的勇气。2.工作【1】.维度的更新;【2】.Python的爬虫模块Scrapy;【3】.核心编程之多线程编程总结;【4】.自然语言处理;【5】.XPathScrapy:crawlrunspiderstartprojectXPathsc...原创 2018-12-17 09:14:19 · 715 阅读 · 0 评论 -
反爬虫总结 | 必须掌握的6种反爬虫策略
许多网站实现了某些措施来防止爬虫来爬取它们,这些措施带有不同程度的复杂性。绕过这些措施有时是困难并富有挑战性的,有时甚至需要特定的措施。 当常常需要和这种反爬虫网站打交道时,以下6条策略应牢记在心中:1.动态设置你的user agent,比如python就提供了random库函数。以下是一些著名浏览器的user agent的总结:def get_user_agent(): ...原创 2018-12-28 12:34:48 · 5443 阅读 · 3 评论 -
Python爬虫实习笔记 | Week10 Daliy工作流水
2018/12/171.所思所想今天感冒加重,整天没心情。最伤心的是,自己的技术流还很不稳固,需要更加努力!今天主要就是在看Python Scrapy爬虫框架,感觉还是挺棒的,自己需要慢慢琢磨,学好学深。从明天开始,自己需要开始学习《MySQL技术内幕》,努力使自己成为大牛~2.工作yield今天运行cnblogSpider时,papers.json的内容一直为空,心情很是郁闷。1...原创 2018-12-26 09:13:32 · 553 阅读 · 0 评论 -
Opencv 将GIF格式图片转为JPG、JPEG等格式图片
1.背景最近在处理验证码破解问题,发现自己使用的百度文字识别不支持有些格式的图片,比如GIF。2.解决措施使用OpenCV的VideoCapture方法,得到图片的一帧,然后保存该帧图片。3.代码import numpy as npimport cv2 as cvgif = cv.VideoCapture('image.gif')ret, frame = gif.r...原创 2019-01-17 16:42:34 · 4846 阅读 · 2 评论 -
爬虫进阶——解决封IP问题| 部署ADSL服务器获取动态IP
1.问题背景我们公司需要到某环保平台爬取环保信息,但平台那边先从封cookie开始,后来又封IP,目前又开始封账号。。本章就讲讲封IP问题的一个解决策略——部署ADSL服务器吧。ADSL服务器是什么,我在这里就不详说了,可以百度下,总结来说,就是可以通过不断的拨号断开宽带连接,从而获取新的IP。我们老板是一个善良的人,嗯嗯,要求很明确,一是爬虫脚本能运行稳定,二是成本低(泻药。。。),...原创 2019-02-27 23:40:29 · 2102 阅读 · 1 评论 -
Python爬虫实习笔记 | Week6 Daliy工作流水
2018/11/191.所思所想上午主要就是做自己的事情,是的,如果没有一天天的积淀,而完全依靠项目中的不足而及时弥补,很难发现自己的痛点,并自觉的去完善。下午可以说很成功,虽然没有做具体任务,但却解决了“困境”中的一环:不需要手动寻找我们需要爬取的数据,主要是url,而是根据html文档自有的特性,及所爬去模块的特征去寻找,可以说相当棒了。2.工作:【1】184 长沙市环保局 没找到...原创 2018-11-24 12:04:45 · 968 阅读 · 0 评论 -
Python爬虫实习笔记 | Week4 项目数据爬取与反思
2018/11/051.所思所想:今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navi...原创 2018-11-14 08:45:21 · 906 阅读 · 0 评论 -
Python爬虫实习笔记 | Week1 软件安装及基础知识学习
2018/10/151.所思所想:今天刘凤成学长跟我介绍了公司情况,以及我们小组的主要任务,即网络数据的爬取,决定学好学深,不辜负半年时光。下午的主要任务就是配置环境,所谓“工欲善其事,必先利其器”,但还是不能花太多时间,后面的具体工作才是根本。2.工作:(1)ubuntu系统的安装,因为之前安装过,网上教程很多,故略。(2)PyCharm的安装,既可以在官网下载安装(免费社区版),也可...原创 2018-10-23 09:40:58 · 477 阅读 · 0 评论 -
Python爬虫实习笔记 | Week2 Python正则和BeautifulSoup学习与试炼
2018/10/22 231.所思所想:今天状态一直不佳,一是因为自己晚上晚睡,睡眠不足,比较困倦;二是自己爬虫基础还不牢靠,还需要努力学习,比较惭愧;三是之前的项目,组长赵某乃不值得信赖之人物,使得自己多生烦忧,《MySQL》也上交了。。还好下午把学长写的爬虫跑通了,今天下午把代码理解一遍,然后自己跑一个城市。2.工作:(1).《Python爬虫项目实战》中的123Chapter,感觉自...原创 2018-10-29 08:55:15 · 410 阅读 · 0 评论 -
Python | 正则表达式的常见用法
正则表达式的常见用法分为两块内容,第一部分是一般具有正则的高级语言都支持的功能,第二部分讲解Python所独特具备的正则特性。 Part 1正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为“元字符”)组成的文字模式。模式用于在搜索文本时要匹配一个或多个字符串。(1).常见的元字符如下:. 匹配除换行符以外的任意字符\b 匹配单词的开始和结束\d 匹...原创 2018-10-24 09:11:02 · 499 阅读 · 0 评论 -
Python爬虫实战项目1 | 基础爬虫的实现(爬取100条百度百科词条)
【基础爬虫篇】本篇讲解一个比较简单的Python爬虫。这个爬虫虽然简单,但五脏俱全,大爬虫有的模块这个基础爬虫都有,只不过大爬虫做的更全面、多样。1.实现的功能:这个爬虫实现的功能为爬取百度百科中的词条信息。爬取的结果见6。2.背景知识:(1).Python语法;(2).BeautifulSoup;(3).HTML知识; Python...原创 2018-11-06 09:48:37 · 1044 阅读 · 0 评论 -
BeautifulSoup主要介绍与基础爬虫项目实践
强大的BeautifulSoup1.简要介绍BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。2.Beautiful Soup的安装方法1: pip install bs4方法2:在Pycharm中,可以在File -> Settings -> Project Inte...原创 2018-11-06 09:58:09 · 5402 阅读 · 0 评论 -
Python 爬虫技巧1 | 将爬取网页中的相对路径转换为绝对路径
1.背景:在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动!2.urllib.parse模块This module defines a standard interface to break Uniform Resource Locat...原创 2018-11-07 11:10:56 · 7833 阅读 · 2 评论 -
Python爬虫实习笔记 | Week3 数据爬取和正则再学习
2018/10/291.所思所想:虽然自己的考试在即,但工作上不能有半点马虎,要认真努力,不辜负期望。中午和他们去吃饭,算是吃饭创新吧。下午爬了鸡西的网站,还有一些字段没爬出来,正则用的不熟悉,此时终于露出端倪,心情不是很好。。明天上午把正则好好看看。2.工作:[1].哈尔滨:html post请求;[2].大庆:aspx 先get后post请求;[3].鸡西: aspx 先get后p...原创 2018-11-05 08:35:37 · 452 阅读 · 0 评论 -
Python正则之再学习与实践
昨天做网页爬取的时候,感觉自己对正则不熟悉的很,故今天再花上午时间认真整理下,不可懈怠。1.常见正则表达式符号[1].literal 匹配文本字符串的字面值literal [2].re1|re2 匹配正则表达式re1或者re2 foo | bar[3].. 匹配任何字符(除\n) b.b[4].^ 匹配字符串的起...原创 2018-11-05 08:37:36 · 208 阅读 · 0 评论 -
Python爬虫实战项目2 | 动态网站的抓取(爬取电影网站的信息)
1.什么是动态网站?动态网站和静态网站的区别在于,网页中常常包含JS,CSS等动态效果的内容或者文件,这些内容也是网页的有机整体。但对于浏览器来说,它是如何处理这些额外的文件的呢?首先浏览器先下载html文件,然后根据需要,下载JS等额外文件,它会自动去下载它们,如果我们要爬取这些网页中的动态信息,则需要我们亲手去构造请求数据。2.如何找到这些动态效果的额外文件?实例:我们打开一个...原创 2018-11-15 16:09:03 · 2368 阅读 · 0 评论 -
selenium | firefox代理设置
1.背景因为公司需要爬去大量的信息,公司ip很快就被对方平台封了,因此果断选择selenium模拟登录,并设置代理。但我目前在网上找的解决方案都不行,貌似是selenium版本的问题。后来我通过阅读selenium官方文档,整理总结了selenium For Firefox的代理设置。2.代码def get_browser(): proxies = get_proxy() #...原创 2019-02-28 16:10:28 · 6398 阅读 · 1 评论