- 博客(4)
- 收藏
- 关注
转载 Python爬虫突破封禁的6种常见方法
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的URL,并具备表单如何提交及JavaScript在浏
2017-10-26 13:06:17 2442
原创 【python爬虫】动态加载页面的解决办法(以ins为例)
现在很多的web页面使用ajax技术动态加载页面。但对于爬虫来说,目标数据很可能不在页面HTML源码中(右键查看网页源代码,通过F12查找),针对静态页面的爬虫不再满足现在的需求。很多教程都推荐用Selenium和PhantomJS配合使用,实现网页的渲染,得到网页的全部信息。但是对于爬虫程序,模拟浏览器内存开销实在是非常大,而且效率低。
2017-10-26 12:30:21 20951 2
原创 【实用工具】下载神奇you-get
前提条件:python3+pip3+FFmgegFFmpeg的安装:FFmpeg官网下载地址 有对应Linux,win,mac的版本,解压后如下图将bin目录放到环境变量中。在cmd中输入FFmpeg,如下图所示即为FFmpeg安装成功。you-get的安装cmd中输入如下命令并执行安装后执行you-get命令,运行结果如下图即为
2017-10-26 11:45:35 663
原创 win10下spyder快捷键
块注释/块反注释 Ctrl + 4/5注释/反注释 Ctrl + 1行删除 Ctrl + D向上移动 Alt +向上向下移动 Alt +向下向上复制 Ctrl + Alt +向上向下复制 Ctrl + Alt +向下运行 F5断点设置 F12条件断点 SHIF
2017-10-26 11:44:56 576
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人