dawn_yue-CSDN博客

转载 Python爬虫突破封禁的6种常见方法

在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用HTML表单或其他网页文件），然后对数据进行解析，提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的URL，并具备表单如何提交及JavaScript在浏

2017-10-26 13:06:17 2442

原创【python爬虫】动态加载页面的解决办法（以ins为例）

现在很多的web页面使用ajax技术动态加载页面。但对于爬虫来说，目标数据很可能不在页面HTML源码中（右键查看网页源代码，通过F12查找），针对静态页面的爬虫不再满足现在的需求。很多教程都推荐用Selenium和PhantomJS配合使用，实现网页的渲染，得到网页的全部信息。但是对于爬虫程序，模拟浏览器内存开销实在是非常大，而且效率低。

2017-10-26 12:30:21 20951 2

原创【实用工具】下载神奇you-get

前提条件：python3+pip3+FFmgegFFmpeg的安装：FFmpeg官网下载地址有对应Linux，win，mac的版本，解压后如下图将bin目录放到环境变量中。在cmd中输入FFmpeg，如下图所示即为FFmpeg安装成功。you-get的安装cmd中输入如下命令并执行安装后执行you-get命令，运行结果如下图即为

2017-10-26 11:45:35 663

原创 win10下spyder快捷键

块注释/块反注释 Ctrl + 4/5注释/反注释 Ctrl + 1行删除 Ctrl + D向上移动 Alt +向上向下移动 Alt +向下向上复制 Ctrl + Alt +向上向下复制 Ctrl + Alt +向下运行 F5断点设置 F12条件断点 SHIF

2017-10-26 11:44:56 576

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 Python爬虫突破封禁的6种常见方法

原创 【python爬虫】动态加载页面的解决办法（以ins为例）

原创 【实用工具】下载神奇you-get

原创 win10下spyder快捷键

空空如也

空空如也

原创【python爬虫】动态加载页面的解决办法（以ins为例）

原创【实用工具】下载神奇you-get