python爬虫
junli_chen
这个作者很懒,什么都没留下…
展开
-
学习爬虫过程中遇到的问题总结
1.下载数据编码问题"title":["\u5a92\u4f53\u63ed\u5730\u94c1\"\u5988\u5988\u4e10\u5e2e\":\u5e26\u5a03\u884c\u4e5e\u6708\u5165\u8fc7\u4e07(\u56fe)"]存放在文本文件中是上面这种Unidcode形式编码的,存放到数据库中是自动转码的,转换化为文字形式。如果想打印出汉字,原创 2015-08-08 16:32:46 · 2816 阅读 · 0 评论 -
Fiddler实现手机抓包
手机用fiddler抓包电脑最好是笔记本,这样能和手机保持统一局域网内;其他不多说,直接说步骤了。一.对PC(笔记本)参数进行配置 1. 配置fiddler允许监听到https(fiddler默认只抓取http格式的) 打开Fiddler菜单项Tools->TelerikFiddler Options->HTTPS, 勾选原创 2017-09-20 17:32:55 · 457 阅读 · 0 评论 -
Scrapy爬虫笔记
Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得。1.安装通过pip或者easy_install安装:1sudo pip install scrapy2.创建爬虫项目1scrapy startprojec转载 2017-09-26 18:59:36 · 579 阅读 · 0 评论 -
编写Python脚本来获取Google搜索结果的示例
前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童鞋不要再走弯路。1. 搜索引擎的选取 选择一个好的搜索引擎意味着你能够得到更准确的搜索结果。我用过的搜索引擎有四种:Google、Bing、Baidu、Yahoo!。 作为程序员,我首选Google。但当我看见我最爱的Google返回给我的全转载 2016-08-18 19:12:18 · 4152 阅读 · 0 评论 -
python如何获取百度搜索结果的真实URL
在公司中需要去抓取一些数据,就遇到了以下这些问题:想通过爬虫获取百度搜索结果的原始链接。通过Firefox的HttpFox插件,发现在搜索结果的URL是加密过的,例如:http://www.baidu.com/link?url=w0Kz2y9t3Ne9YtTTkZ1M_ToY43HWy3tia4djxC8u9CC点击链接之后,会向该链接发送GET,从服务器得到的回复中包含真实URL:h原创 2016-08-18 19:02:28 · 6994 阅读 · 1 评论 -
腾讯、网易、新浪新闻网站爬虫编写记录及评论格式分析
0 前言先说说看这篇博客你能知道什么:1 腾讯、网易、新浪不同新闻的地址格式以及评论内容的地址格式(返回数据为json的异步接口);2 一些比较通用的设计方法,对软件设计的菜鸟可能有帮助;之前也说了要写这篇博客,现在终于写出来了。我的毕业设计的指导老师说毕设论文的字数不够……所以我决定把这些本不应该出现在论文中的实现细节凑到论文中。至于下面说到的东西要解决什么问题,各位可以先看看这转载 2016-01-23 11:09:16 · 2971 阅读 · 0 评论 -
python以gzip header请求html数据时,response内容乱码无法解码的解决方案
在准备研究生毕业论文的过程,需要抓取网页数据,被网页编码问题困扰着啊。。。。。。比如问题:python以gzip header请求html数据时,response内容乱码无法解码?在http请求中,如果在request header包含”Accept-Encoding”:”gzip, deflate”,对response内容用lxml.etree进行解析时,在pycharm IDE打印中文时会原创 2015-11-29 20:29:15 · 4140 阅读 · 1 评论 -
python抓取gb2312/gbk编码网页乱码问题
做了个网络爬虫抓取网页,但如果网页是gbk/gb2312编码,则会出现乱码问题,如下:取得文字后,直接打印,输出结果str如下:¹óÖÝÈËÊ¿¼ÊÔÐÅÏ¢Íø_¹óÖÝÈËÊ¿¼ÊÔÍø_¹óÖݹ«ÎñÔ±¿¼ÊÔÍø_¹óÖÝÖй«这个问题困扰我好长时间,baidu,google了一番也没有找到完全可行的方法,继续瞎折腾,最后居然搞出来了!编码转换来转换去的,还是得不原创 2015-11-28 11:44:59 · 17684 阅读 · 0 评论 -
python如何得到13位时间戳?
python用time.time()得到的不是13位的时间戳,要怎么才能得到13位的?python获取当前时间的unix时间戳Unix timestamp:是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒.import datetimeimport time原创 2015-11-27 10:34:18 · 7936 阅读 · 1 评论 -
python中的urlencode和urldecode
python将字符串转化成urlencode ,或者将url编码字符串decode的方法:方法1:urlencode:urllib中的quote方法>>> from urllib import quote>>> quote(':') '%3A'>>> quote('http://www.baidu.com') 'http%3A//www.baidu.c原创 2015-11-26 20:11:21 · 2947 阅读 · 0 评论 -
使用python对url编码解码
最近在抓取一些js代码产生的动态数据,需要模拟js请求获得所需用的数据,遇到对url进行编码和解码的问题,就把遇到的问题总结一下,有总结才有进步,才能使学到的知识更加清晰。对url进行编码和解码,python提供了很方便的接口进行调用。url中的query带有特殊字符(不是url的保留字)时需要进行编码。当url中带有汉字时,需要特殊的处理才能正确编码,以下都只针对这种情形,当然也适用于纯原创 2015-11-26 19:42:35 · 37153 阅读 · 2 评论 -
爬虫技术浅析
0x00 前言网络爬虫(Web crawler),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以便程序做下一步的处理。在WEB2.0时代,动态网页盛行起来。那么爬虫就应该能在页面内爬到这些有javascript生成的链接。当然动态解析页面只是转载 2015-11-02 20:28:42 · 586 阅读 · 0 评论 -
python如何获取javascript动态产生的数据
我现有有一个工作,需要从新浪新闻网站中获取数据,包括,标题,正文,和参与人数。如图所示想得到 820,但是动态产生的。该新闻的url为http://news.sina.com.cn/c/2013-07-11/175827642839.shtml 陕西眉县发红头文件:官员卖水泥买房纳入考核<a id="media_comment" href="#J_Comment_Wrap" r原创 2015-11-20 16:38:24 · 5533 阅读 · 0 评论 -
任务调度利器:Celery
Celery简要介绍Celery是Python开发的分布式任务调度模块,是一个异步的任务队列基于分布式消息传递。Celery本身不含消息服务,它使用第三方消息服务来传递任务,目前,Celery支持的消息服务有RabbitMQ、Redis甚至是数据库,当然Redis应该是最佳选择。使用Redis作为Broker时,再安装一个celery-with-redis。 celery(芹菜)是原创 2015-09-04 16:48:33 · 3182 阅读 · 0 评论 -
使用fiddler获取手机上的数据
1.说实话,当初老大让我去尝试抓取手机App的数据时,我是一脸懵逼,无从下手。后来经过在网上查阅资料了解到,抓取手机数据需要抓取数据包,从中获取需要的数据,根据别人写的博客,进行了初步的尝试,最终获取了一些自己需要的数据,初次尝试,费了不少劲,虽然以前学过抓包,只恨当初没有认真对待,忘得一无所有,汗。废话少说。。2.首先要抓取数据(Fiddler抓包,手机WiFi代理),3.分析数原创 2017-09-20 17:34:30 · 771 阅读 · 0 评论