自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 263day(python面对对象进阶)

《2018年6月30日》【连续263天】标题:python面对对象进阶;内容:1.正常情况下,当我们定义了一个class,创建了一个class的实例后,我们可以给该实例绑定任何属性和方法,这就是动态语言的灵活性:绑定属性:class Student(object): passs =Student()s.name ='Mike'print(s.name)绑定方法:(实例s,其它实例...

2018-06-30 23:15:35 122

原创 262day(python类与对象补充)

《2018年6月29日》【连续262天】标题:python类与对象补充;内容:之前写过python类的实例,与c++和java还是有些不同的,下面补充一些不同:1.类用class定义,参数为Object,Object一般是父类,表示继承关系;class Student(object): pass2.__init__方法(两条下划线),第一个参数必须是self(有点像this指针,应该是一个...

2018-06-29 22:29:54 99

原创 261day(爬取百度贴吧帖子)

《2018年6月29日》【连续261天】标题:爬取百度贴吧帖子;内容:本来想跟别人一起用urllib.request.Request爬取html的,但一运行就未响应,只好用requests了url:  https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1&red_tag=1250477225标题:总页数:发言:看了别人的一些代码,加了...

2018-06-29 01:06:45 147

转载 260day(XML操作,HTMLParser)

《2018年6月27日》【连续260天】标题:XML操作,HTMLParser;内容:1.操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。正常情况下,优先考虑SAX,因为DOM实在太占内存。在Python中使用SAX解析XML非常简洁,通常我...

2018-06-27 23:29:36 95

原创 259day(urllib.reruest,e,proxy设置,Headers属性)

《2018年6月26日》【连续259天】标题:urllib.reruest,e,proxy设置,Headers属性;内容:1.python3中将urllib和urllib2整合到了一个包里,如果要用urllib2,使用urllib.request即可;2.异常处理的`,e`在python3改为`as e`了3.urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。...

2018-06-27 00:36:42 335

转载 258day(Cookie的使用)

《2018年6月25日》【连续258天】标题:Cookie的使用;内容:Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。1.Opener:当你获取一个URL你使用...

2018-06-25 23:49:57 107

转载 257day(map/reduce,修饰器@(装饰器))

标题:map/reduce,修饰器@(装饰器);内容:1.map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的函数依次作用到序列的每个元素,并把结果作为新的Iterator返回。举例说明,比如我们有一个函数f(x)=x2,要把这个函数作用在一个list [1, 2, 3, 4, 5, 6, 7, 8, 9]上,就可以用map()实现如下:>>> def ...

2018-06-25 00:33:20 123

原创 256day(bilibili新番时间表爬取)

标题:bilibili新番时间表爬取;内容:今天练习爬取bilibili新番时间表:网址:https://www.bilibili.com/anime/timeline/进入源代码:时间表是用js生成的,于是检查元素:基本上需要的东西到找到了,端口:https://bangumi.bilibili.com/web_api/timeline_global于是代码如下:import requests ...

2018-06-24 00:50:41 1768

原创 254day(if __name__ == '__main__': 原理及作用,sys模块)

《2018年6月22日》【连续254天】标题:if __name__ == '__main__': 原理及作用,sys模块;内容:if __name__ == '__main__':一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。因此if __name__ == 'main': 的作用就是...

2018-06-22 00:50:18 636

原创 253day(bs4输出)

《2018年6月20日》【连续253天】标题:输出;内容:格式化输出:prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行BeautifulSoup 对象和它的tag节点都可以调用 prettify() 方法压缩输出:如果只想得到结果字符串,不重视格式,那么可以对一个 BeautifulSo...

2018-06-20 22:02:49 256

原创 252day(find(),find_parents() 和 find_parent(),修改文档树)

《2018年6月19日》【连续252天】标题:find(),find_parents() 和 find_parent(),修改文档树;内容:find( name , attrs , recursive , text , **kwargs )find_all() 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个<body>标签,...

2018-06-20 00:59:11 1010

原创 251day(搜索文档树)

《2018年6月18日》【连续251天】标题:搜索文档树;内容:Beautiful Soup定义了很多搜索方法,这里着重介绍2个: find() 和 find_all() .再以“爱丽丝”文档作为例子:html_doc = """<html><head><title>The Dormouse's story</title>&l...

2018-06-18 23:40:01 120

原创 250day(回退和前进)

《2018年6月17日》【连续250天】标题:回退和前进;内容:“爱丽丝” 文档:<html><head><title>The Dormouse's story</title></head><p class="title"><b>The Dormouse's story&am

2018-06-17 23:12:35 155

原创 249day(父节点,兄弟节点)

《2018年6月16日》【连续249天】标题:父节点,兄弟节点;内容:父节点:继续分析文档树,每个tag或字符串都有父节点:被包含在某个tag中通过 .parent 属性来获取某个元素的父节点.在例子“爱丽丝”的文档中,<head>标签是<title>标签的父节点:title_tag = soup.titletitle_tag# <tit...

2018-06-16 21:05:51 244

转载 248day(继续阅读Beautiful Soup 4.2.0 文档)

《2018年6月15日》【连续248天】标题:继续阅读Beautiful Soup 4.2.0 文档;内容:1.https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html2.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag...

2018-06-15 23:19:09 161

原创 247day(Beautiful Soup 4.2.0 文档)

《2018年6月14日》【连续247天】标题:Beautiful Soup 4.2.0 文档;内容:今天阅读了BeautifulSoup文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html以此为例:ml_doc = """<html><head><tit...

2018-06-14 23:33:06 151

原创 246day(京东耳机定向爬虫练习)

《2018年6月13日》【连续246天】标题:京东耳机定向爬虫练习;内容:1.今天练习爬取京东的商品页面,以耳机为例:第一页url:https://search.jd.com/Search?keyword=%E8%80%B3%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E8%80%B...

2018-06-14 00:52:15 417 3

原创 245day(BeautifulSoup库和正则表达式复习)

《2018年6月13日》【连续245天】标题:BeautifulSoup库和正则表达式复习;内容:1.今天回头复习了一下bs库,并尝试写了代码:import requestsfrom bs4 import BeautifulSoupimport bs4 def getHTMLText(url): try: r = requests.get(ur...

2018-06-13 00:45:11 235

原创 244day(证书问题)

《2018年6月11日》【连续244天】标题:证书问题;内容:1.今天打开fiddler,再打开网页就出现:简单了解了一下,fiddler充当的是中间人的工作,当fiddler启动时,它相当于一个代理服务器,所以浏览器就向它要证书,之所以出现上述情况,是因为我们并没有信任fiddler所给的证书,就是这玩意解决方法有两个:1.重置证书,重装到受信任的目录,(我之前存...

2018-06-12 00:08:12 220

原创 243day(urllib的urlretrieve())

《2018年6月11日》【连续243天】标题:urllib的urlretrieve();内容:1.urlretrieve(url[, filename[, reporthook[, data]]]):参数说明:url:外部或者本地urlfilename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);reporthook:是一个回调函数,...

2018-06-11 00:53:05 110

原创 242day(fiddler手机https抓包)

《2018年6月9日》【连续242天】标题:fiddler手机https抓包学习;内容:1.先设置http抓取和解密:注意选择 from remote clients only勾选allow remote computers to connect2.下载certmaker插件,安装重启,fiddler;3.让手机和PC处在一个网段, 并更改手机上的...

2018-06-09 22:51:54 335

原创 241day(fidder基础知识,设置自动返回本地数据)

《2018年6月8日》【连续241天】标题:fidder基础知识,设置自动返回本地数据;内容:1.Fiddler基础知识Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888,我们也可以通过设置进行修改。代理就是在客户端和服务器之间设置一道关卡,客户端先将请求数据发送出去后,代理服务器会将数据包进行...

2018-06-08 22:08:40 242

原创 240day(Fiddler反向代理-AutoResponder简单了解)

《2018年6月7日》【连续240天】标题:Fiddler反向代理-AutoResponder简单了解;内容:反向代理-AutoResponder:1。打开随意一个网页http://www.baidu.com/2.选中记录,右击-勾选“Unlock fo Editing”3.选择Fiddler右侧reponse块下的TextView,这里修改title,如图:...

2018-06-07 23:39:08 559

原创 239day(根证书安装,Fidder的几种功能)

《2018年6月7日》【连续239天】标题:根证书安装,Fidder的几种功能;内容:Fidder列表标识: 名称 含义 # 抓取HTTP Request的顺序,从1开始,以此递增 Result HTTP状态码 Protocol ...

2018-06-07 00:57:42 150

原创 238day(Queue模块,Fidder安装)

《2018年6月5日》【连续238天】标题:Queue模块,Fidder安装;内容:创建:import queueq =queue.Queue(maxsize=10)queue.Queue类即一个队列的同步实现,可选参数maxsize来设定队列长度,maxsize小于1就表示对列长度无限;将一个值放入队列中:q.put(10)在队尾插入一个项目,item是插入...

2018-06-05 23:41:05 168

原创 237day(Json库学习)

《2018年6月4日》【连续237天】标题:Json库学习;内容:1.Encode过程:将一个python对象转换成json字符串的过程:json.dumps()对照表:Python JSONdict objectlist, tuple arraystr, unicode s...

2018-06-05 00:17:32 166

原创 236day(股票数据Scrapy爬虫)

《2018年6月3日》【连续236天】标题:股票数据Scrapy爬虫;内容:按步骤建立工程,爬虫后,stock.py代码:import scrapyimport re class StocksSpider(scrapy.Spider): name = "stocks" start_urls = ['http://quote.eastmoney.c...

2018-06-03 22:33:14 262

原创 235day(yield关键字,Scrapy爬虫第一个实例)

《2018年6月3日》【连续235天】标题:yield关键字,Scrapy爬虫第一个实例;内容:生成器是一个不断产生值的函数包含yield语句的函数是一个生成器生成器每次产生一个值(yield语句),函数被冻结,被唤醒后再产生一个值。生成器 写法:>>> def gen(n): for i in range(n): yield i**2&g...

2018-06-03 00:44:12 365

原创 234day(Scrapy爬虫框架)

《2018年6月1日》【连续234天】标题:Scrapy爬虫框架;内容:5+2分布式结构;框架入口:Spider的初始爬取请求框架出口:Item Pipeline用户编写:spider,item pipelineEngine:(1)控制所有模块之间的数据流(2)根据条件触发事件Downloader:根据请求下载网页Scheduler:对所有...

2018-06-01 23:58:27 145

原创 233day(股票数据定向爬虫)

《2018年5月31日》【连续233天】标题:股票数据定向爬虫;内容:1.东方财富网:http://quote.eastmoney.com/stocklist.html2.百度股票:https://gupiao.baidu.com/stock/步骤一:从东方财富网获取股票列表;步骤二:根据股票列表逐步到百度股票获得个股信息;步骤三:将结果储存到文件;代码:im...

2018-06-01 01:10:27 209

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除