python
Gooooa
这个作者很懒,什么都没留下…
展开
-
Python2.7 pip编码错误UnicodeDecodeError: 'utf8' codec can't decode byte 0xb0 in解决方法
pip安装 编码错误UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0xb0 in解决方法:新建 sitecustomize.py文件,放到 Python27/Lib;内容:# encoding=utf8import sysreload(sys)sys.setdefaultencoding('gbk')原创 2017-05-25 17:15:28 · 13992 阅读 · 3 评论 -
python DataFrame 打印结果不换行方法
加入代码:pd.set_option('display.width', 5000)原创 2018-03-12 15:32:41 · 9395 阅读 · 0 评论 -
python的对数
首先要导入 math 模块:import mathmath.log(8,2),此为以2为底8的对数等于 math.log2(8);自然对数: 以e为底的对数。e = math.e 约等于 2.718281828459045;x的自然对数为:math.log(x,math.e)...原创 2018-03-01 16:00:58 · 10638 阅读 · 0 评论 -
python 标准差计算(std)
numpy.std() 求标准差的时候默认是除以 n 的,即是有偏的,np.std无偏样本标准差方式为 ddof = 1; pandas.std() 默认是除以n-1 的,即是无偏的,如果想和numpy.std() 一样有偏,需要加上参数ddof=0 ,即pandas.std(ddof=0) ;DataFrame的describe()中就包含有std();demo:>>> aarray([0,原创 2017-12-28 16:15:43 · 137571 阅读 · 3 评论 -
python 爬虫
原文博客地址:http://blog.csdn.net/Bone_ACE/article/category/6409215转载 2017-07-07 17:21:52 · 462 阅读 · 0 评论 -
Scrapy在采集网页时使用随机user-agent
随机生成User-agent:更改User-agent能够防止一些403或者400的错误,基本上属于每个爬虫都会写的。这里我们可以重写scrapy 里的middleware,让程序每次请求都随机获取一个User-agent,增大隐蔽性。在settings.py中添加以下代码:DOWNLOADER_MIDDLEWARES = { 'guazi2.middlewares.MyCustomDown转载 2017-06-22 17:25:03 · 1424 阅读 · 0 评论 -
Scrapy爬虫架构图解
这就是整个Scrapy的架构图了;Scrapy Engine: 这是引擎,负责Spiders、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等等!(像不像人的身体?)Scheduler(调度器): 它负责接受引擎发送过来的requests请求,并按照一定的方式进行整理排列,入队、并等待Scrapy Engine(引擎)来请求时,交给引擎。Download转载 2017-06-22 16:16:52 · 5217 阅读 · 4 评论 -
scrapy-redis 和 scrapy ?
一、scrapy和scrapy-redis的主要区别在哪里? 个人认为,scrapy和scrapy-redis不应该讨论区别。scrapy 是一个通用的爬虫框架,其功能比较完善,可以帮你迅速的写一个简单爬虫,并且跑起来。scrapy-redis是为了更方便地实现scrapy分布式爬取,而提供了一些以redis为基础的组件(注意,scrapy-redis只是一些组件,而不是一个完整的框架)。你可以这转载 2017-06-20 15:09:28 · 718 阅读 · 0 评论 -
Scrapy 爬虫程序
http://cuiqingcai.com/3472.html 爬取www.23us.com:顶点小说网站小说,并将数据保存到数据库。转载 2017-06-07 16:41:50 · 468 阅读 · 0 评论 -
给 Scrapy 爬虫项目设置防反爬
所有的设置都是在scrapy爬虫项目中的settings.py 文件中进行设置。 Step 1 . 设置爬虫不遵循 robots.txt协议详细内容请跳转–原文链接第22行:ROBOTSTXT_OBEY = FalseStep 2 . 设置取消Cookies第36行:COOKIES_ENABLED = FalseStep 3 . 设置用户代理值(USER_AGENT)第19行:USER_AG转载 2017-06-16 17:08:27 · 3278 阅读 · 1 评论