python
文章平均质量分 78
lxshen
多一分心力去注意别人,就少一分心力反省自己,你懂吗?
展开
-
面向对象-类
类的使用:类的概念类是定义同一类所有对象的变量和方法的蓝图或原型类里的预定义方法**__init__() '构造器'方法** 任何所需的特定操作,都需要程序员实现__init__(),覆盖他的默认行为。 在实例化一个对象时,实例对象作为第一个参数(self)被传进去,并且会自动执行这个方法。进行属性的初始化。 **注:学过c++的都知道this原创 2017-08-07 21:47:03 · 282 阅读 · 0 评论 -
python定向爬虫——爬取某代理Ip网站上的所有ip
爬取一个网站的基本过程确定目标 –> 分析目标 –> 编写程序 -> 执行爬虫 分析目标: url 格式 数据格式 网页编码分析目标数据在源代码里的结构,以便在后去整个页面源代码后,可以利用正则进行匹配。注意:目标网站的格式会随时升级,定向爬虫也需要定期升级。实例:爬取某代理Ip网站上的所有ip确定目标:爬取西刺代理上存活一年以上的高匿代理IP原创 2017-08-13 15:43:04 · 5276 阅读 · 2 评论 -
python 网络爬虫——cookie的使用
什么是cookie?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 客户端访问服务器的过程 为什么要使用cookie模拟登陆?有些网站需要登陆后才能访问摸个页面,在登陆之前,我们想住区某个页面内容是不允许的,那么我们可以利用urllib2库保存我们登陆的cookie,然原创 2017-08-11 22:32:00 · 513 阅读 · 0 评论 -
python装饰器(decotator)详解
先来看看一个列子def foo(): print '我是lxshen'foo()输出:我是lxshen这时我想在这个输出前面再执行一段程序。这时我们首先想到的是以下两种方法:方法一:直接在函数中添加def foo(): print 'hello,', print '我是lxshen'foo()输出:hello, 我是lxshen方法二:我再另写一个函数,再foo函数中调原创 2017-11-18 16:57:51 · 1320 阅读 · 0 评论 -
python爬虫之BeautifulSoup的用法
概念:Beautiful Soup 是什么?Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。目前Beautiful Soup3已经停止开发,推荐使用Beautiful Soup4解析器Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个原创 2017-08-21 23:05:35 · 569 阅读 · 0 评论 -
python 网络爬虫——请求头,ip代理
1.构造合理的 HTTP 请求头(1)为什么要伪装? 有些网站在处理请求的时候,会对请求头中的字段进行判断,如果发现这个请求头中出现有关爬虫程序的信息,会对这个请求做出禁止访问或者封杀的操作,因此我们需要对请求进行伪装,让网站无法分别请求是否为爬虫。(2)分析:爬虫爬取网页时: 经典的 Python 爬虫在使用 urllib 标准库时,都会发送如下的请求头:原创 2017-08-10 20:55:49 · 1847 阅读 · 0 评论 -
python 闭包和装饰器详解
什么是闭包python中的闭包从表现形式上定义(解释)为: 如果在一个内部函数里,对在外部作用域(但不是在全局作用域)的变量进行引用,那么内部函数就被认为是闭包(closure)。需要满足的条件:一个函数内嵌套一个函数函数返回值必须是这个嵌套的函数嵌套的函数必须使用父函数中的局部变量1.举一个简单的例子def fun_1(): num_1 = 9 def fun_2(num原创 2017-11-18 14:34:17 · 616 阅读 · 0 评论 -
python对象引用、深浅拷贝
想必大家都了解python是引用计数的方式来管理的。那么python 是真的“传对象引用?实际上,python是采用传值和传引用结合的一种方式。如果函数收到的是一个可变对象(比如字典或者列表)的引用,就能修改对象的原始值——相当于通过“传引用”来传递对象。如果函数收到的是一个不可变对象(比如数字、字符或者元组)的引用,就不能直接修改原始对象——相当于通过“传值’来传递对象。 (”’) asdf...原创 2018-09-20 22:38:30 · 316 阅读 · 0 评论