博客专栏  >  编程语言   >  Python爬虫之Selenium+Phantomjs+CasperJS

Python爬虫之Selenium+Phantomjs+CasperJS

本文主要介绍基于Windows环境下的Python关于Phantomjs、CasperJS和 Selenium相关的爬取动态生成的信息页面如Ajax、JavaScript等知识,从最基本的安装环境到自动访问页面、表单登录、爬取JS动态信息,希望文章对你有所帮助!

关注
398 已关注
32篇博文
  • [python爬虫] BeautifulSoup和Selenium简单爬取知网信息测试

    作者最近在研究复杂网络和知识图谱内容,准备爬取知网论文相关信息进行分析,包括标题、摘要、出版社、年份、下载数和被引用数、作者信息等。但是在爬取知网论文时,遇到问题如下: 1.爬取内容总为空,其原因...

    前天 11:16
    734
  • [python爬虫] BeautifulSoup爬取+CSV存储贵州农产品数据

    《勿忘心安》 勿要把酒倚寒窗,庭院枯叶已飞霜。 忘怀之前坎坷路,劝君一醉付流光。 心中愁苦漫翻滚,雪上寒鸦入画堂。 安知我辈庸庸过,双鬓飞白亦疏狂。 很喜欢这首诗,也享受在公交车上备课的日子,心很静很...

    2017-10-29 23:29
    200
  • [python爬虫] 正则表达式使用技巧及爬取个人博客实例

    这篇博客是自己《数据挖掘与分析》课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站。希望这篇基础文章对您有所...

    2017-10-18 18:15
    5356
  • [python爬虫] 招聘信息定时系统 (二).调用pyinstaller包生成exe文件

    前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中;这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作。整个系列主要...

    2017-04-24 00:07
    3402
  • [python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL

    这系列文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为当前天的,同时将爬取的内容保存到数据库中,然后制作定时系统每天执行爬取,最后是Python调用相关库发送短信到手机。整个系列主要分为...

    2017-04-22 16:03
    3569
  • [python爬虫] Selenium爬取内容并存储至MySQL数据库

    前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常,在使用Selenium爬虫爬取数据后,需要存储在TXT文本中,但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过Selenium...

    2017-03-13 13:05
    5786
  • [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对...

    2016-12-30 00:19
    7060
  • [python爬虫] Selenium切换窗口句柄及调用Chrome浏览器

    因为我的博客是根据我每个阶段自己做的事情而写的,所以前言可能有点跑题,但它更有利于让我回忆这个阶段自己的所作所为。这篇文章主要介绍Selenium爬虫获取当前窗口句柄、切换窗口句柄以及调用Chrome...

    2016-11-21 04:36
    8472
  • 【Python数据挖掘课程】一.安装Python及爬虫入门介绍

    最近因为需要给大数据金融学院的学生讲解《Python数据挖掘及大数据分析》的课程,所以在这里,我将结合自己的上课内容,详细讲解每个步骤。作为助教,我更希望这门课程以实战为主,同时按小组划分学生,每个小...

    2016-09-19 12:12
    10553
  • [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

    在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,但是上面这种分析HTML来爬取网站内容的方法存在很多弊端,譬如:正则表达式被HTML源码所约束,而不是...

    2015-03-25 17:50
    9081
  • [python爬虫] Selenium常见元素定位方法和操作的学习介绍

    这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ 一.定位元素方法 二.操作元素方法 ...

    2016-07-10 13:10
    22478
  • [Python爬虫] Selenium爬取新浪微博移动端热点话题及评论 (下)

    这篇文章主要讲述了使用python+selenium爬取新浪微博的热点话题和评论信息。其中使用该爬虫的缺点是效率极低,傻瓜式的爬虫,不能并行执行等,但是它的优点是采用分析DOM树结构分析网页源码并进行...

    2016-05-06 04:30
    11699
  • [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息。 用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等。微博信息:...

    2016-04-24 07:29
    10826
  • [python] 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 1.获取标签之间内容 2.获取超链接之间内...

    2016-04-07 06:13
    30176
  • [python爬虫] Selenium爬取新浪微博内容及用户信息

    在进行自然语言处理、文本分类聚类、推荐系统、舆情分析等研究中,通常需要使用新浪微博的数据作为语料,这篇文章主要介绍如果使用Python和Selenium爬取自定义新浪微博语料。因为网上完整的语料比较少...

    2016-02-23 05:32
    20978
  • [python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

    本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-me...

    2016-01-20 04:55
    9030
  • [python] 基于k-means和tfidf的文本聚类代码简单实现

    基本步骤包括: 1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息; 2.使用jieba结巴分词对文本进行中文分词,同时插入字典关于关键...

    2016-01-08 02:52
    28643
  • [python] 安装numpy+scipy+matlotlib+scikit-learn及问题解决

    这篇文章主要讲述Python如何安装Numpy、Scipy、Matlotlib、Scikit-learn等库的过程及遇到的问题解决方法。最近安装这个真是一把泪啊,各种不兼容问题和报错,你可能遇到的问题...

    2015-12-17 22:22
    10275
  • [python] 使用Jieba工具中文分词及文本聚类概念

    这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 ...

    2015-12-11 02:38
    26328
  • [python爬虫] 爬取图片无法打开或已损坏的简单探讨

    本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩...

    2015-12-07 06:25
    7159
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部