Maple的实习笔记
文章平均质量分 75
该专栏是我第一次建的专栏,主要记录我在Soochow Enhance Company实习的心得和工作总结,所有的专栏文章都将专注于Python 爬虫相关。
SunLight Jr
自由思想,独立精神。
展开
-
Python爬虫实习笔记 | Week10 Daliy工作流水
2018/12/171.所思所想今天感冒加重,整天没心情。最伤心的是,自己的技术流还很不稳固,需要更加努力!今天主要就是在看Python Scrapy爬虫框架,感觉还是挺棒的,自己需要慢慢琢磨,学好学深。从明天开始,自己需要开始学习《MySQL技术内幕》,努力使自己成为大牛~2.工作yield今天运行cnblogSpider时,papers.json的内容一直为空,心情很是郁闷。1...原创 2018-12-26 09:13:32 · 494 阅读 · 0 评论 -
Python爬虫实习笔记 | Week9 Daliy工作流水
2018/12/101.所思所想今天压力还蛮大,因为自己开始接触更多的维度,需要实现更加有难度的功能,但自己应迎难而上,有百折不挠的勇气。2.工作【1】.维度的更新;【2】.Python的爬虫模块Scrapy;【3】.核心编程之多线程编程总结;【4】.自然语言处理;【5】.XPathScrapy:crawlrunspiderstartprojectXPathsc...原创 2018-12-17 09:14:19 · 665 阅读 · 0 评论 -
Python爬虫实习笔记 | Week8 Daliy工作流水
2018/12/31.所思所想今天时间过得好快,自己还有很多事情没有做好,从今天起,每天解决一个公司项目中遇到的难题,这样,才能将自己所学运用于实践。2.工作暂时将《核心编程》的数据库编程部分看完,这样,之后更改时间更新的代码会游刃有余。之前的《核心编程》多线程编程以及网络编程还需要细细总结。2018/12/41.所思所想今天主要可以做自己的事情,这真的是一件很爽的事情,主要解决...原创 2018-12-17 09:13:20 · 356 阅读 · 0 评论 -
Python爬虫实习笔记 | Week7 Daliy工作流水
2018/11/261.所思所想今天决心把一周的任务全部完成,这样,我就能安心做好自己的事情,之前制定好的计划——11,12月学完Python和MySQL,不能有任何妥协,在12月中旬前把Python核心编程前8Chapters及流畅的Python看完,如果需要花晚上时间也在所不惜。12月中旬到下旬,看完MySQL前8chapters。路漫漫,自己需要提升的地方还有很多。2.工作【1】今天...原创 2018-12-05 10:37:40 · 700 阅读 · 0 评论 -
Python爬虫项目实战3 | 图片文字识别(以验证码识别为例)
1.项目背景我在实习过程中,当我抓取环保平台相关数据时,常常发现有图片的情况,比如以下这种图片,所以抓取这种图片中的信息是我进行图片文字识别的动力:2.项目思路因为在某一网站中有大量这种想要抓取的图片,所以我的思路是,1.先抓取这些图片的名称和URL;2.然后再根据这些URL得到图片信息;3.然后识别信息。3.验证码图片识别示例【1】首先,我们可以找一个有很多验...原创 2018-11-24 12:47:11 · 2245 阅读 · 0 评论 -
Python爬虫实习笔记 | Week6 Daliy工作流水
2018/11/191.所思所想上午主要就是做自己的事情,是的,如果没有一天天的积淀,而完全依靠项目中的不足而及时弥补,很难发现自己的痛点,并自觉的去完善。下午可以说很成功,虽然没有做具体任务,但却解决了“困境”中的一环:不需要手动寻找我们需要爬取的数据,主要是url,而是根据html文档自有的特性,及所爬去模块的特征去寻找,可以说相当棒了。2.工作:【1】184 长沙市环保局 没找到...原创 2018-11-24 12:04:45 · 911 阅读 · 0 评论 -
Python爬虫实习笔记 | Week5 Daliy工作内容概要与反思
2018/11/121.所思所想:今天上午搞分布式爬虫项目,发现自己还是无法跑通,希望自己熟练之后能够顺利解决。下午就是把自己的想法付诸实践,就是将后台脚本进行封装,从而有利于复用,自己有一本《重构》的书,很有可能对自己这方面的想法有帮助,等《国富论》看完后,就看这本书。晚上自己的时间利用的不好,原因在于没有制定比较明确的学习目标。我觉得合理的时间是5:30下班,6:00吃完饭,6:50到...原创 2018-11-20 09:11:54 · 792 阅读 · 0 评论 -
Python爬虫实战项目2 | 动态网站的抓取(爬取电影网站的信息)
1.什么是动态网站?动态网站和静态网站的区别在于,网页中常常包含JS,CSS等动态效果的内容或者文件,这些内容也是网页的有机整体。但对于浏览器来说,它是如何处理这些额外的文件的呢?首先浏览器先下载html文件,然后根据需要,下载JS等额外文件,它会自动去下载它们,如果我们要爬取这些网页中的动态信息,则需要我们亲手去构造请求数据。2.如何找到这些动态效果的额外文件?实例:我们打开一个...原创 2018-11-15 16:09:03 · 2294 阅读 · 0 评论 -
Python爬虫实战项目1 | 基础爬虫的实现(爬取100条百度百科词条)
【基础爬虫篇】本篇讲解一个比较简单的Python爬虫。这个爬虫虽然简单,但五脏俱全,大爬虫有的模块这个基础爬虫都有,只不过大爬虫做的更全面、多样。1.实现的功能:这个爬虫实现的功能为爬取百度百科中的词条信息。爬取的结果见6。2.背景知识:(1).Python语法;(2).BeautifulSoup;(3).HTML知识; Python...原创 2018-11-06 09:48:37 · 999 阅读 · 0 评论 -
Git | 用Git进行版本控制 · 小白入门
使用Git进行版本控制以下内容主要参考《Python编程——从入门到实践》1.安装Git在linux系统中,执行命令:sudo apt-get install git在windows系统中,须访问http://msysgit.github.io/ ,并下载2.在项目中使用git2.1 创建项目首先创建一个要进行版本控制的项目,创建文件夹,并将其命名为git_practice。在这...原创 2018-10-16 15:21:03 · 151 阅读 · 0 评论 -
ubuntu mysql | 彻底卸载mysql并且重新安装[亲自实践,绝对有效]
转自:http://www.jianshu.com/p/c76b31df5d09首先删除mysql:sudo apt-get remove mysql-*然后清理残留的数据dpkg -l |grep ^rc|awk '{print $2}' |sudo xargs dpkg -P它会跳出一个对话框,你选择yes就好了然后安装mysqlsudo apt-get inst...转载 2018-10-25 12:24:58 · 226 阅读 · 0 评论 -
Python | 正则表达式的常见用法
正则表达式的常见用法分为两块内容,第一部分是一般具有正则的高级语言都支持的功能,第二部分讲解Python所独特具备的正则特性。 Part 1正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为“元字符”)组成的文字模式。模式用于在搜索文本时要匹配一个或多个字符串。(1).常见的元字符如下:. 匹配除换行符以外的任意字符\b 匹配单词的开始和结束\d 匹...原创 2018-10-24 09:11:02 · 473 阅读 · 0 评论 -
Python爬虫实习笔记 | Week4 项目数据爬取与反思
2018/11/051.所思所想:今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navi...原创 2018-11-14 08:45:21 · 847 阅读 · 0 评论 -
Python爬虫实习笔记 | Week3 数据爬取和正则再学习
2018/10/291.所思所想:虽然自己的考试在即,但工作上不能有半点马虎,要认真努力,不辜负期望。中午和他们去吃饭,算是吃饭创新吧。下午爬了鸡西的网站,还有一些字段没爬出来,正则用的不熟悉,此时终于露出端倪,心情不是很好。。明天上午把正则好好看看。2.工作:[1].哈尔滨:html post请求;[2].大庆:aspx 先get后post请求;[3].鸡西: aspx 先get后p...原创 2018-11-05 08:35:37 · 388 阅读 · 0 评论 -
Python爬虫实习笔记 | Week2 Python正则和BeautifulSoup学习与试炼
2018/10/22 231.所思所想:今天状态一直不佳,一是因为自己晚上晚睡,睡眠不足,比较困倦;二是自己爬虫基础还不牢靠,还需要努力学习,比较惭愧;三是之前的项目,组长赵某乃不值得信赖之人物,使得自己多生烦忧,《MySQL》也上交了。。还好下午把学长写的爬虫跑通了,今天下午把代码理解一遍,然后自己跑一个城市。2.工作:(1).《Python爬虫项目实战》中的123Chapter,感觉自...原创 2018-10-29 08:55:15 · 357 阅读 · 0 评论 -
Python爬虫实习笔记 | Week1 软件安装及基础知识学习
2018/10/151.所思所想:今天刘凤成学长跟我介绍了公司情况,以及我们小组的主要任务,即网络数据的爬取,决定学好学深,不辜负半年时光。下午的主要任务就是配置环境,所谓“工欲善其事,必先利其器”,但还是不能花太多时间,后面的具体工作才是根本。2.工作:(1)ubuntu系统的安装,因为之前安装过,网上教程很多,故略。(2)PyCharm的安装,既可以在官网下载安装(免费社区版),也可...原创 2018-10-23 09:40:58 · 424 阅读 · 0 评论