爬虫
文章平均质量分 84
haichao062
这个作者很懒,什么都没留下…
展开
-
爬虫程序(一)---读取网页
读取网页时候,如果访问速度过快,会返回个timeout错误(10054),因此要在此做个try,并启用下一个代理。(代理可以百度,http 代理,要有端口号)。同时模拟浏览器,可以防止一些返回错误。 #读取网页函数def FormatHTML( url ): flag = True count = 0 sleep_download_time = 0 time原创 2012-10-12 09:16:46 · 2258 阅读 · 0 评论 -
挖坑中....urlencode
爬虫的时候遇到了urlencode,urldecode的问题,用下面函数,可以把 汉字 urlencodedef my_urlencode(str): key = str; mass = {} mass["key"] = key params = urlencode(mass) return params 使用fiddler可以对浏览器进行抓原创 2012-11-14 13:03:11 · 702 阅读 · 0 评论 -
爬虫程序(二)---读取网页
第一个写的爬虫网页是在去年,后来原创 2014-07-09 11:51:33 · 3442 阅读 · 0 评论 -
如何下载NBA球员投篮信息
网站: http://stats.nba.com/记录了NBA的各种数据统计,有兴趣的可以自己研究下。找到“View Shotchart”专题内容打开 http://stats.nba.com/,在网站首页,拖到最底,有个“SHOT CHARTS”的内容。 点开View Shotchart。 找到shotchartdetail API。打开View Shotchart页面后,按F12,进入开发原创 2015-08-21 16:24:45 · 1663 阅读 · 1 评论