Python
文章平均质量分 68
SunLight Jr
自由思想,独立精神。
展开
-
Git | 用Git进行版本控制 · 小白入门
使用Git进行版本控制以下内容主要参考《Python编程——从入门到实践》1.安装Git在linux系统中,执行命令:sudo apt-get install git在windows系统中,须访问http://msysgit.github.io/ ,并下载2.在项目中使用git2.1 创建项目首先创建一个要进行版本控制的项目,创建文件夹,并将其命名为git_practice。在这...原创 2018-10-16 15:21:03 · 194 阅读 · 0 评论 -
Python爬虫实习笔记 | Week4 项目数据爬取与反思
2018/11/051.所思所想:今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navi...原创 2018-11-14 08:45:21 · 906 阅读 · 0 评论 -
Python爬虫实战项目2 | 动态网站的抓取(爬取电影网站的信息)
1.什么是动态网站?动态网站和静态网站的区别在于,网页中常常包含JS,CSS等动态效果的内容或者文件,这些内容也是网页的有机整体。但对于浏览器来说,它是如何处理这些额外的文件的呢?首先浏览器先下载html文件,然后根据需要,下载JS等额外文件,它会自动去下载它们,如果我们要爬取这些网页中的动态信息,则需要我们亲手去构造请求数据。2.如何找到这些动态效果的额外文件?实例:我们打开一个...原创 2018-11-15 16:09:03 · 2368 阅读 · 0 评论 -
Python正则之再学习与实践
昨天做网页爬取的时候,感觉自己对正则不熟悉的很,故今天再花上午时间认真整理下,不可懈怠。1.常见正则表达式符号[1].literal 匹配文本字符串的字面值literal [2].re1|re2 匹配正则表达式re1或者re2 foo | bar[3].. 匹配任何字符(除\n) b.b[4].^ 匹配字符串的起...原创 2018-11-05 08:37:36 · 208 阅读 · 0 评论 -
Python爬虫实习笔记 | Week3 数据爬取和正则再学习
2018/10/291.所思所想:虽然自己的考试在即,但工作上不能有半点马虎,要认真努力,不辜负期望。中午和他们去吃饭,算是吃饭创新吧。下午爬了鸡西的网站,还有一些字段没爬出来,正则用的不熟悉,此时终于露出端倪,心情不是很好。。明天上午把正则好好看看。2.工作:[1].哈尔滨:html post请求;[2].大庆:aspx 先get后post请求;[3].鸡西: aspx 先get后p...原创 2018-11-05 08:35:37 · 452 阅读 · 0 评论 -
Python 爬虫技巧1 | 将爬取网页中的相对路径转换为绝对路径
1.背景:在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动!2.urllib.parse模块This module defines a standard interface to break Uniform Resource Locat...原创 2018-11-07 11:10:56 · 7833 阅读 · 2 评论 -
Python爬虫实战项目1 | 基础爬虫的实现(爬取100条百度百科词条)
【基础爬虫篇】本篇讲解一个比较简单的Python爬虫。这个爬虫虽然简单,但五脏俱全,大爬虫有的模块这个基础爬虫都有,只不过大爬虫做的更全面、多样。1.实现的功能:这个爬虫实现的功能为爬取百度百科中的词条信息。爬取的结果见6。2.背景知识:(1).Python语法;(2).BeautifulSoup;(3).HTML知识; Python...原创 2018-11-06 09:48:37 · 1044 阅读 · 0 评论 -
Python | 正则表达式的常见用法
正则表达式的常见用法分为两块内容,第一部分是一般具有正则的高级语言都支持的功能,第二部分讲解Python所独特具备的正则特性。 Part 1正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为“元字符”)组成的文字模式。模式用于在搜索文本时要匹配一个或多个字符串。(1).常见的元字符如下:. 匹配除换行符以外的任意字符\b 匹配单词的开始和结束\d 匹...原创 2018-10-24 09:11:02 · 499 阅读 · 0 评论 -
Python爬虫实习笔记 | Week2 Python正则和BeautifulSoup学习与试炼
2018/10/22 231.所思所想:今天状态一直不佳,一是因为自己晚上晚睡,睡眠不足,比较困倦;二是自己爬虫基础还不牢靠,还需要努力学习,比较惭愧;三是之前的项目,组长赵某乃不值得信赖之人物,使得自己多生烦忧,《MySQL》也上交了。。还好下午把学长写的爬虫跑通了,今天下午把代码理解一遍,然后自己跑一个城市。2.工作:(1).《Python爬虫项目实战》中的123Chapter,感觉自...原创 2018-10-29 08:55:15 · 410 阅读 · 0 评论 -
Python3 | 字符串格式化 format 和 % 的使用
Python3 字符串格式化字符串的格式化方法分为两种,分别为占位符(%)和format方式。占位符方式在Python2.x中用的比较广泛,随着Python3.x的使用越来越广,format方式使用的更加广泛。一 占位符(%) %d实例(Python3.0+): 1 2 3 age = 29 print("my age i...转载 2018-10-19 16:47:36 · 710 阅读 · 0 评论 -
Python爬虫实习笔记 | Week5 Daliy工作内容概要与反思
2018/11/121.所思所想:今天上午搞分布式爬虫项目,发现自己还是无法跑通,希望自己熟练之后能够顺利解决。下午就是把自己的想法付诸实践,就是将后台脚本进行封装,从而有利于复用,自己有一本《重构》的书,很有可能对自己这方面的想法有帮助,等《国富论》看完后,就看这本书。晚上自己的时间利用的不好,原因在于没有制定比较明确的学习目标。我觉得合理的时间是5:30下班,6:00吃完饭,6:50到...原创 2018-11-20 09:11:54 · 869 阅读 · 0 评论