python
2012kaka
这个作者很懒,什么都没留下…
展开
-
url %E4%BD%A0%E5%A5%BD 编码问题
url链接粘贴下来后通常会出现类似%E4%BD%A0%E5%A5%BD的编码,一般来说一个中文字对应三个%编码的是utf-8, 一个中文字对应两个%编码的是GB2312。还可以在http://tool.chinaz.com/tools/urlencode.aspx 这个网站上进行解码测试。在这里%E4%BD%A0%E5%A5%BD是utf-8 你好 的意思。decode 的作用是将其他编码的字符串原创 2016-10-22 16:04:12 · 50058 阅读 · 2 评论 -
爬虫 只爬取网页部分内容的问题
在爬虫爬取网页的时候只爬取到部分内容,后来查到原因是因为爬取的html文件是不规范的html,导致不同的html parser的分析结果不一样。 把原来的soup = BeautifulSoup(wb_data, 'lxml')替换成soup = BeautifulSoup(wb_data, 'html.parser')就可以正常读取内容了。通常 BeautifulSoup 的 html pars原创 2016-10-23 10:45:22 · 6675 阅读 · 0 评论 -
python word读取
之前尝试采用win32com读取,似乎win32com需要依赖word应用,最理想的状态是不用依赖,在没有word安装的情况下就能运行。这次采用的是python-docx包,下面的demo演示读取word的内容并打印出来import docxdocName = "c:\\test.docx"fullText = []doc = docx.Document(docName)paras = doc原创 2016-10-19 11:03:49 · 600 阅读 · 0 评论 -
pyhton 'gbk' codec can't encode character u'\xa0'
在beautifulSoup爬取网页时会出现’gbk’ codec can’t encode character u’\xa0’的编码问题,原因是gbk无法转换unicode的’\xa0’也就是空格,需要预先处理一下。string.replace(u'\xa0', u' ') 参考链接:http://blog.csdn.net/xiaoyi_zhang/article/details/51675原创 2016-10-29 16:47:33 · 553 阅读 · 0 评论