- 博客(13)
- 资源 (13)
- 收藏
- 关注
转载 字符编码和python使用encode,decode转换utf-8, gbk, gb2312的问题
ASCII码标准ASCII码使用7位二进制数(前128个ASCII码),表示大写或小写字母、数字0到9、标点符号以及在美式英语中使用的特殊控制字符。在标准ASCII码中,最高位(b7)用作奇偶校验位,所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:在正确代码的一个字节中1的个数必须是奇数,若非奇数,则在最高位b7位添1;偶校验
2017-05-25 20:44:54 5377
原创 Scrapy爬虫中使用Splash抓取动态JS页面
目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。解决方案:利用第三方中间件来提供JS渲染服务: scrapy-splash 等。利用webkit或者基于webkit库Splash简介:Splash是一个Jav
2017-05-25 14:44:37 2484
转载 Scrapy入门教程
在这篇入门教程中,我们假定你已经安装了Scrapy。如果你还没有安装,那么请参考安装指南。我们将使用开放目录项目(dmoz)作为抓取的例子。这篇入门教程将引导你完成如下任务:创建一个新的Scrapy项目定义提取的Item写一个Spider用来爬行站点,并提取Items写一个Item Pipeline用来存储提取出的ItemsScrapy是由Python编写的。如果你
2017-05-23 00:26:08 425
原创 XPath Helper:chrome爬虫网页解析工具 Chrome插件图文教程
最近在学习使用scrapy框架开发python爬虫程序,使用到xpath获取URL路径。由于HTML中的标签太多,在找xpath的路径时总是费半天劲,有时还容易出错,造成时间和精力的浪费。今天在看一篇文章中无意中看到chrome中的一种爬虫网页解析工具XPath Helper,使用了一下感觉很方面,所以希望能够帮助更多的python爬虫爱好者和开发者。
2017-05-21 20:46:18 33997 3
转载 pycharm快捷键及一些常用设置
pycharm快捷键及一些常用设置1、编辑(Editing)Ctrl + Space 基本的代码完成(类、方法、属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息(在方法中调用参数)Ctrl + Q 快速查看文档Shift + F1 外部文档Ctrl + 鼠标 简介
2017-05-21 19:38:39 460
转载 如何通过自学,成为数据挖掘“高手”
本文总结了要成为数据挖掘高手需要做的知识储备,包括要看的数据、论文、算法、要掌握的工具等。分析了数据挖掘的一些方向,给出了个人的一些看法和理解,对于初学者是一篇不错的参考文章。
2017-05-20 20:07:10 1590
原创 Python网络爬虫阶段总结
学习python爬虫有一个月了,现在将学习的东西和遇到的问题做一个阶段总结,以作复习备用,另对于python爬虫感兴趣的,如果能帮到你们少走些弯路,那也是极好的。
2017-05-16 22:07:19 21792
转载 轻松制作自己的词云,向心爱的ta表达一下浪漫的心意吧
有一种设计叫Word Cloud(词云),有了它,就可以向你心爱的ta随时表达心意了。用它去表白既浪漫,又充满创意,相信一定会给ta留下良好的印象的。它长成下面的样子,赶快行动起来制作有自己想法、个性、创意的词云,送给那个心里的ta吧,我只能帮你到这了!图1图2图3你看到这样的图片心生喜欢,于是你默默打开PhotoShop,想为某
2017-05-15 21:04:56 698
转载 Python 2.x中常见字符编码和解码方面的错误及其解决办法 总结
Python 2.x中的字符编码,设计的的确不好,导致初学者,甚至是即使用Python很长时间的人,都会经常遇到字符编解码方面的错误。下面就把一些常见情,尽量的都整理出来,并给出相应的解决办法。
2017-05-13 17:04:13 666
原创 mysql出现1067异常或1366错误的解决方案(字符集冲突导致插入数据异常)
异常信息:errorCode:1366Caused by: java.sql.SQLException: Incorrect string value: '\xE7\xAE...' for column 'description' at row 1
2017-05-13 11:20:43 1517
原创 解决'utf8'编解码器无法解码字节0xa5(0xa3也可以)
在解析网页,或者一些特殊的字符串编码解码转换时经常出现类似UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xa5 in position 108: ordinal not in range(128)或者UnicodeDecodeError: 'utf8' codec can't decode byte 0xa3 in position 17: invalid start byte 的问题。
2017-05-11 23:08:34 17676
原创 Windows7下安装Python图像处理库PIL、pytesser
Windows7 64位下安装Python图像处理库PIL、pytesser
2017-05-05 16:39:05 1640
达梦数据库连接管理&数据迁移工具
2023-03-13
《快学Scala》中文版带目录
2018-01-17
python核心编程 第二版 源代码
2017-10-25
Java开发实战经典-李兴华
2017-09-24
win32api-amd64-py2.7
2017-04-24
MySQL-python-1.2.3.win-amd64-py2.7
2017-02-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人