- 博客(5)
- 收藏
- 关注
原创 学习Ajax异步加载:爬今日头条
【项目介绍】现在很多网址都是异步加载的,一般我们浏览一个页面返回的是网页的框架,而内容是用JavaScript渲染的,一般是我们一边拖动内容网页会一边发出异步加载的请求并响应部分内容,这样子我们打开网页时响应速度会快很多,也能减小服务器的压力,使服务器支持更多的并发。但是也因为异步加载的关系,用以往直接请求网页内容的方式是找不到要爬的内容的,这个项目尝试分析今日头条的异步加载方式,爬取头条上的图片...
2020-04-17 15:00:40 334
原创 用selenium爬京东商城的商品信息(selenium的学习强化)
【项目介绍】之前用selenium爬当当网的信息,已经基本掌握一些selenium的用法,这次尝试用同样的方法爬京东商城,过程中出现很多问题:比如总是超时(特别是查找按钮节点element_to_be_clickable和对比文本节点text_to_be_present_in_element),比如商品信息有60个但只能加载到30个……借鉴网上的做法完成了项目,但是对于一些节点总是超时还是不能理...
2020-04-16 15:08:27 309
原创 用selenium爬当当网商品信息
【项目介绍】参考崔庆才老师《Python3网络爬虫开发实战》第七章动态渲染页面爬取里爬淘宝网的实例,由于现在淘宝网查找需要先登录,故用当当网进行尝试。1.动态加载页面的判断?F12→找到对应url的response,看到返回的页面是一个网页框架,并没有出现商品信息,以此我们可以大致判断是异步加载(注意,在network里看response的html,不要在element里看,这里返回的才是最真...
2020-04-13 12:11:55 806 1
原创 安装selenium和chrome webdriver
selenium库爬虫功能强大,一般配合chrome webdriver使用。安装selenium比较简单:命令行输入 pip3 install selenium即可显示成功可以尝试import selenium试试。至于安装webdriver,首先它是基于chrome的可执行文件,我们现在帮助里查找chrome的版本:查找到版本后,在webdriver官网页面下载对应版本的文件:h...
2020-04-03 19:56:46 700
原创 关于Pycharm安装第三方库jieba及wordcloud的问题
最近想用Python做词云图,需要要到第三方库jieba(用于分词)和wordcloud(绘制词云图),根据以往的方式在Pycharm里:settings ->找到编辑器->查找和安装第三方库->安装完成。但是安装这两个库时总是提示错误,根据网上查找的方法:下载第三方库:https://www.lfd.uci.edu/~gohlke/pythonlibs/(最好存放在Pyth...
2020-03-11 22:09:59 1962
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人