- 博客(3)
- 资源 (3)
- 收藏
- 关注
转载 更改python编码
Python的字符集处理实在蛋疼,目前使用UTF-8居多,然后默认使用的字符集是ascii,所以我们需要改成utf-8查看目前系统字符集复制代码 代码如下:import sysprint sys.getdefaultencoding()执行:复制代码 代码如下:[root@lee ~]# python a.py ascii修改成utf
2016-05-29 07:19:40 511
转载 ASCII码值表
Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex | Char Dec Oct Hex-----------------------------------------------------------------------------------(nul) 0 0000 0x00 | (sp) 32 0
2016-05-24 15:53:40 1017
转载 抓取前端渲染的页面
随着AJAX技术不断的普及,以及现在AngularJS这种Single-page application框架的出现,现在js渲染出的页面越来越多。对于爬虫来说,这种页面是比较讨厌的:仅仅提取HTML内容,往往无法拿到有效的信息。那么如何处理这种页面呢?总的来说有两种做法:在抓取阶段,在爬虫中内置一个浏览器内核,执行js渲染页面后,再抓取。这方面对应的工具有Selenium、HtmlUnit
2016-05-23 17:30:24 6945
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人