![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
LoveMollyWendy
这个作者很懒,什么都没留下…
展开
-
爬虫-糗事百科段子
练习爬取糗事百科段子,直接上代码洛,有注释哦。。。__author__="a958832776"# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass qiushibaikeclass: #初始化方法,定义一些变量 def __init__(self):原创 2017-05-08 18:37:17 · 681 阅读 · 0 评论 -
beautiful soup安装
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不原创 2017-05-08 18:35:38 · 771 阅读 · 0 评论 -
Cookie使用
为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份,进行session跟踪而存储在用户本地终端上的数据(经过加密)。Opener当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url原创 2017-05-08 18:34:54 · 799 阅读 · 0 评论 -
爬虫基础高级篇
示例import urllib2request = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(request)print response.read()POST和GET数据传送数据传送分为POST和GET两种方式,两种方式有什么区别呢?最重要的区别是GET方式是直接以链接形式访问,链接中包含了所有的参原创 2017-05-08 18:33:47 · 1628 阅读 · 0 评论 -
爬虫基础
什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。URL的含义URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。 URL的格式由三部分组成: ①第一部原创 2017-05-08 18:32:17 · 853 阅读 · 0 评论 -
爬虫-百度贴吧帖子
目的对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖内容将抓取到的内容分析并保存到文件过程URL格式分析比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,这是一个关于NBA50大的盘点,分析一下这个地址。1. http:// 代表资源传输使用http协议2.tieba.baidu.com 是百度的二级域名,指向百度贴吧的服务器。原创 2017-05-10 14:58:43 · 1053 阅读 · 0 评论