2018年06月_orangecloudy

原创 263day（python面对对象进阶）

《2018年6月30日》【连续263天】标题：python面对对象进阶；内容：1.正常情况下，当我们定义了一个class，创建了一个class的实例后，我们可以给该实例绑定任何属性和方法，这就是动态语言的灵活性：绑定属性：class Student(object): passs =Student()s.name ='Mike'print(s.name)绑定方法：（实例s，其它实例...

2018-06-30 23:15:35 122

原创 262day（python类与对象补充）

《2018年6月29日》【连续262天】标题：python类与对象补充；内容：之前写过python类的实例，与c++和java还是有些不同的，下面补充一些不同：1.类用class定义，参数为Object，Object一般是父类，表示继承关系；class Student(object): pass2.__init__方法（两条下划线）,第一个参数必须是self（有点像this指针，应该是一个...

2018-06-29 22:29:54 99

原创 261day（爬取百度贴吧帖子）

《2018年6月29日》【连续261天】标题：爬取百度贴吧帖子；内容：本来想跟别人一起用urllib.request.Request爬取html的，但一运行就未响应，只好用requests了url: https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1&red_tag=1250477225标题：总页数：发言：看了别人的一些代码，加了...

2018-06-29 01:06:45 147

《2018年6月27日》【连续260天】标题：XML操作，HTMLParser；内容：1.操作XML有两种方法：DOM和SAX。DOM会把整个XML读入内存，解析为树，因此占用内存大，解析慢，优点是可以任意遍历树的节点。SAX是流模式，边读边解析，占用内存小，解析快，缺点是我们需要自己处理事件。正常情况下，优先考虑SAX，因为DOM实在太占内存。在Python中使用SAX解析XML非常简洁，通常我...

2018-06-27 23:29:36 95

原创 259day（urllib.reruest，e，proxy设置,Headers属性）

《2018年6月26日》【连续259天】标题：urllib.reruest，e，proxy设置,Headers属性；内容：1.python3中将urllib和urllib2整合到了一个包里，如果要用urllib2，使用urllib.request即可；2.异常处理的`，e`在python3改为`as e`了3.urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。...

2018-06-27 00:36:42 335

转载 258day（Cookie的使用）

《2018年6月25日》【连续258天】标题：Cookie的使用；内容：Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。1.Opener:当你获取一个URL你使用...

2018-06-25 23:49:57 107

转载 257day（map/reduce,修饰器@（装饰器））

标题：map/reduce,修饰器@（装饰器）；内容：1.map()函数接收两个参数，一个是函数，一个是Iterable，map将传入的函数依次作用到序列的每个元素，并把结果作为新的Iterator返回。举例说明，比如我们有一个函数f(x)=x2，要把这个函数作用在一个list [1, 2, 3, 4, 5, 6, 7, 8, 9]上，就可以用map()实现如下：>>> def ...

2018-06-25 00:33:20 123

原创 256day（bilibili新番时间表爬取）

标题：bilibili新番时间表爬取；内容：今天练习爬取bilibili新番时间表：网址：https://www.bilibili.com/anime/timeline/进入源代码：时间表是用js生成的，于是检查元素：基本上需要的东西到找到了，端口：https://bangumi.bilibili.com/web_api/timeline_global于是代码如下：import requests ...

2018-06-24 00:50:41 1768

原创 254day（if name == 'main': 原理及作用,sys模块）

《2018年6月22日》【连续254天】标题：if __name__ == '__main__': 原理及作用,sys模块；内容：if __name__ == '__main__':一个python的文件有两种使用的方法，第一是直接作为脚本执行，第二是import到其他的python脚本中被调用（模块重用）执行。因此if __name__ == 'main': 的作用就是...

2018-06-22 00:50:18 636

原创 253day(bs4输出)

《2018年6月20日》【连续253天】标题：输出；内容：格式化输出：prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行BeautifulSoup 对象和它的tag节点都可以调用 prettify() 方法压缩输出：如果只想得到结果字符串,不重视格式,那么可以对一个 BeautifulSo...

2018-06-20 22:02:49 256

原创 252day（find()，find_parents() 和 find_parent()，修改文档树）

《2018年6月19日》【连续252天】标题：find()，find_parents() 和 find_parent()，修改文档树；内容：find( name , attrs , recursive , text , **kwargs )find_all() 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个<body>标签,...

2018-06-20 00:59:11 1010

原创 251day(搜索文档树)

《2018年6月18日》【连续251天】标题：搜索文档树；内容：Beautiful Soup定义了很多搜索方法,这里着重介绍2个: find() 和 find_all() .再以“爱丽丝”文档作为例子:html_doc = """<html><head><title>The Dormouse's story</title>&l...

2018-06-18 23:40:01 120

原创 250day（回退和前进）

《2018年6月17日》【连续250天】标题：回退和前进；内容：“爱丽丝” 文档:<html><head><title>The Dormouse's story</title></head><p class="title"><b>The Dormouse's story&am

2018-06-17 23:12:35 155

原创 249day(父节点，兄弟节点)

《2018年6月16日》【连续249天】标题:父节点，兄弟节点；内容:父节点：继续分析文档树,每个tag或字符串都有父节点:被包含在某个tag中通过 .parent 属性来获取某个元素的父节点.在例子“爱丽丝”的文档中,<head>标签是<title>标签的父节点:title_tag = soup.titletitle_tag# <tit...

2018-06-16 21:05:51 244

转载 248day(继续阅读Beautiful Soup 4.2.0 文档)

《2018年6月15日》【连续248天】标题：继续阅读Beautiful Soup 4.2.0 文档；内容：1.https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html2.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag...

2018-06-15 23:19:09 161

原创 247day(Beautiful Soup 4.2.0 文档)

《2018年6月14日》【连续247天】标题：Beautiful Soup 4.2.0 文档；内容：今天阅读了BeautifulSoup文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html以此为例：ml_doc = """<html><head><tit...

2018-06-14 23:33:06 151

原创 246day(京东耳机定向爬虫练习)

《2018年6月13日》【连续246天】标题：京东耳机定向爬虫练习；内容：1.今天练习爬取京东的商品页面，以耳机为例:第一页url：https://search.jd.com/Search?keyword=%E8%80%B3%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E8%80%B...

2018-06-14 00:52:15 417 3

原创 245day（BeautifulSoup库和正则表达式复习）

《2018年6月13日》【连续245天】标题：BeautifulSoup库和正则表达式复习；内容：1.今天回头复习了一下bs库，并尝试写了代码：import requestsfrom bs4 import BeautifulSoupimport bs4 def getHTMLText(url): try: r = requests.get(ur...

2018-06-13 00:45:11 235

原创 244day（证书问题）

《2018年6月11日》【连续244天】标题:证书问题；内容：1.今天打开fiddler，再打开网页就出现：简单了解了一下，fiddler充当的是中间人的工作，当fiddler启动时，它相当于一个代理服务器，所以浏览器就向它要证书，之所以出现上述情况，是因为我们并没有信任fiddler所给的证书，就是这玩意解决方法有两个：1.重置证书，重装到受信任的目录，（我之前存...

2018-06-12 00:08:12 220

原创 243day（urllib的urlretrieve()）

《2018年6月11日》【连续243天】标题：urllib的urlretrieve();内容：1.urlretrieve(url[, filename[, reporthook[, data]]]):参数说明：url：外部或者本地urlfilename：指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；reporthook：是一个回调函数，...

2018-06-11 00:53:05 110

原创 242day(fiddler手机https抓包)

《2018年6月9日》【连续242天】标题：fiddler手机https抓包学习；内容：1.先设置http抓取和解密：注意选择 from remote clients only勾选allow remote computers to connect2.下载certmaker插件，安装重启，fiddler；3.让手机和PC处在一个网段，并更改手机上的...

2018-06-09 22:51:54 335

原创 241day（fidder基础知识，设置自动返回本地数据）

《2018年6月8日》【连续241天】标题：fidder基础知识，设置自动返回本地数据；内容：1.Fiddler基础知识Fiddler是强大的抓包工具，它的原理是以web代理服务器的形式进行工作的，使用的代理地址是：127.0.0.1，端口默认为8888，我们也可以通过设置进行修改。代理就是在客户端和服务器之间设置一道关卡，客户端先将请求数据发送出去后，代理服务器会将数据包进行...

2018-06-08 22:08:40 242

原创 240day（Fiddler反向代理-AutoResponder简单了解）

《2018年6月7日》【连续240天】标题：Fiddler反向代理-AutoResponder简单了解；内容：反向代理-AutoResponder：1。打开随意一个网页http://www.baidu.com/2.选中记录，右击-勾选“Unlock fo Editing”3.选择Fiddler右侧reponse块下的TextView，这里修改title,如图：...

2018-06-07 23:39:08 559

原创 239day（根证书安装，Fidder的几种功能）

《2018年6月7日》【连续239天】标题：根证书安装，Fidder的几种功能；内容：Fidder列表标识：名称含义 # 抓取HTTP Request的顺序，从1开始，以此递增 Result HTTP状态码 Protocol ...

2018-06-07 00:57:42 150

原创 238day(Queue模块,Fidder安装)

《2018年6月5日》【连续238天】标题：Queue模块,Fidder安装；内容：创建：import queueq =queue.Queue(maxsize=10)queue.Queue类即一个队列的同步实现，可选参数maxsize来设定队列长度，maxsize小于1就表示对列长度无限；将一个值放入队列中：q.put(10)在队尾插入一个项目，item是插入...

2018-06-05 23:41:05 168

原创 237day（Json库学习）

《2018年6月4日》【连续237天】标题：Json库学习；内容：1.Encode过程：将一个python对象转换成json字符串的过程：json.dumps()对照表：Python JSONdict objectlist, tuple arraystr, unicode s...

2018-06-05 00:17:32 166

原创 236day(股票数据Scrapy爬虫)

《2018年6月3日》【连续236天】标题：股票数据Scrapy爬虫；内容：按步骤建立工程，爬虫后，stock.py代码：import scrapyimport re class StocksSpider(scrapy.Spider): name = "stocks" start_urls = ['http://quote.eastmoney.c...

2018-06-03 22:33:14 262

原创 235day（yield关键字，Scrapy爬虫第一个实例）

《2018年6月3日》【连续235天】标题：yield关键字，Scrapy爬虫第一个实例；内容：生成器是一个不断产生值的函数包含yield语句的函数是一个生成器生成器每次产生一个值（yield语句），函数被冻结，被唤醒后再产生一个值。生成器写法：>>> def gen(n): for i in range(n): yield i**2&g...

2018-06-03 00:44:12 365

原创 234day(Scrapy爬虫框架)

《2018年6月1日》【连续234天】标题：Scrapy爬虫框架；内容：5+2分布式结构；框架入口：Spider的初始爬取请求框架出口：Item Pipeline用户编写：spider,item pipelineEngine:(1)控制所有模块之间的数据流(2)根据条件触发事件Downloader：根据请求下载网页Scheduler：对所有...

2018-06-01 23:58:27 145

原创 233day（股票数据定向爬虫）

《2018年5月31日》【连续233天】标题：股票数据定向爬虫；内容：1.东方财富网：http://quote.eastmoney.com/stocklist.html2.百度股票：https://gupiao.baidu.com/stock/步骤一：从东方财富网获取股票列表；步骤二：根据股票列表逐步到百度股票获得个股信息；步骤三：将结果储存到文件；代码：im...

2018-06-01 01:10:27 209

orangecloudy的博客