![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 92
goodlovingz
这个作者很懒,什么都没留下…
展开
-
python爬取TED演讲视频(代码)
环境: windows+python3.6+pycharm(非必须)引用的python库/模块:requests, bs4, os, random,you-get准备知识:requests的应用,BeautifulSoup的find_all(),os.system(“cmd命令”),you-get爬取步骤:1.对于爬虫,我习惯都用上ip代理池,虽然有的网站没有反爬虫策略,但是用上也无大碍。将ip代...原创 2018-04-14 11:24:57 · 2255 阅读 · 0 评论 -
python爬取豆瓣《狂暴巨兽》评分影评,matplotlib和wordcloud制作评分图和词云图
开发环境:win7,8,10,python3+python模块:requestes,bs4,matplotlib,jieba,wordcloud,PIL,numpy,random实现的功能和思路:(1)打开豆瓣《狂暴巨兽》评论区,根据html结构捕获三个信息: 一,每账号的评分等级为5星、4星、3星、2星、1星; 二,每个账号的评论留言;...原创 2018-04-14 19:31:29 · 1581 阅读 · 0 评论 -
python的lxml和xPath用法
安装lxml,xPath库xPath语法:下面列出了最有用的路径表达式:表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。实例在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:路径表达式结果bookstore选取 bookstore 元素的所有子节点。/bo...转载 2018-04-18 09:24:37 · 3046 阅读 · 0 评论 -
python—selenium个人笔记
一、问题1、selenium3.0+,谷歌浏览器6.0+,添加了chromedriver.exe运行报错:“不安全:data”等等: selenium版本和google版本不一致,估计Google版本过高;火狐浏览器暂时没出现此问题,也要下载geckodriver.exe2、从一个页面跳转到新页面后无法定位到新的元素,或者新页面元素没存入: 到新页面后要在使用之前在原来...原创 2018-04-18 19:58:41 · 338 阅读 · 0 评论 -
python爬虫——智联招聘(上)
开发环境 win7+,python3.4+ pymysql库,安装:pip3 install pymysql selenium库,火狐浏览器56.0版本,geckodriver.exe,selenium知识点 MySQL5.5数据库,Navicat图形化界面爬取步骤1.分析智联招聘网,获取网页信息 打开“https://www.zhaopin.com/”选择城市“北京”,输入“...原创 2018-05-06 15:04:25 · 1565 阅读 · 0 评论