python
文章平均质量分 59
qq_23849183
这个作者很懒,什么都没留下…
展开
-
[爬虫系列(一)]爬取豆瓣电影排行前250
这是个小爬虫,基于python2.7.主要用到了BeautifulSoup库和urllib2的urlopen,爬取豆瓣电影排行前250,并保存在文件中. 主要分为三个步骤: * 分析url * 分析网站数据 * 爬取数据一.分析url豆瓣电影排行榜250的url很好分析: 格式都是这样子的: http://movie.douban.com/top250?start=(page_num)原创 2016-02-12 15:40:13 · 5665 阅读 · 0 评论 -
[爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书
这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息. 这里,仍然分为三步: 1.url分析 2.数据分析 3.爬取数据1.url分析豆瓣读书Top250的url分析和豆瓣电影Top250类似: 豆瓣读书Top250的url基本都是这样的: http://book.douban.com/top250?start=所以,同样我也是利用urlparse的url原创 2016-02-12 16:40:32 · 8482 阅读 · 0 评论 -
浅谈Python装饰器
这部分我参考了廖雪峰老师的网站内容:装饰器 这里补充下自己的看法: 先来一个例子def begin(f): print f.name return f @begin def now(): print ‘2016-02-21结果显示(这里还没有调用now()函数): now 如果调用now()函数,那么则会有 2016-02-21这是为什么原创 2016-02-21 20:46:44 · 607 阅读 · 0 评论 -
[爬虫系列(三)]用多线程爬取百度贴吧默认表情
一直认为百度贴吧默认表情比较有趣,于是学了爬虫后,我便想把这些表情爬下来.1.URL分析分析这些url,发现它们的模式都是这样的:http://static.tieba.baidu.com/tb/editor/images/client/image_emoticon%d.png所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.2.爬取网页有了url,那么爬取网原创 2016-02-21 21:00:35 · 733 阅读 · 0 评论 -
Scrapy-Splash爬取淘宝排行榜(三)
五 写spider1.知道了要爬取的内容,所以,我们首先在start_urls中设置如下: start_urls=['https://top.taobao.com/index.php?topId=TR_FS&leafId=50010850','https://top.taobao.com/index.php?topId=TR_SM&leafId=1101','https://top.taoba原创 2016-04-30 22:29:20 · 4420 阅读 · 0 评论 -
Scrapy-Splash爬取淘宝排行榜(一)
一 引言日前,自己因项目需要需要爬取淘宝排行榜,而淘宝因为用了很多的AJAX技术,不能用普通的爬虫爬取,于是我这里就想用如一些集成了PhantomJS或类似的python爬虫框架。一开始自己尝试了pyspider,但是自己对pysider并不是很熟练,而且网上这方面资料也很少,于是弃坑转为自己较为熟悉的scrapy框架。经过一番搜索,在Github发现了这个,scrapy-splash,由scrap原创 2016-04-30 21:28:15 · 9170 阅读 · 0 评论 -
Scrapy-Splash爬取淘宝排行榜(二)
四 开始爬取1.首先分析淘宝排行榜的设置。在这里,商品被分为服饰,数码家电,化妆品,母婴,食品,文体,家具,车|玩具|宠物。而点开每个大类,又可以看到商品被分为很多小类。点开任意小类,往下拉就可以看到该类商品的排行信息,包括销售上升榜,销售热门榜等等。这里我只爬取销售热门榜的内容,所以继续点击销售热门榜的标签。可以看到在这里列出了该类前二十的商品。信息包括:排名,关键词,参考价,成交指数,升降位次。原创 2016-04-30 22:19:14 · 4831 阅读 · 0 评论 -
python unicode-escape编码问题
有一串编码如下:s='\u871c\u7c89/\u6563\u7c89'查看类型,为str:按utf-8先解码在编码依然不行。 最后,参考水木清华的一篇帖子可以这么做: 那么问题来了,这个unicode-escape什么来的呢 在python中,对于unicode存储时,可以采用另一种方法: 将unicode的内存编码值进行存储,读取文件时在反向转换回来。这里就采用了unicode-esc原创 2016-04-22 17:34:45 · 12783 阅读 · 2 评论 -
论python的类型推导
今天才发现原来python的类型推导有时也是一个祸害。因为有了类型推导,所以自己潜意识就会放弃考虑类型之间的转换。说到底还是自己太懒了。。。嗯,要吸取教训原创 2016-07-17 11:01:57 · 1336 阅读 · 2 评论