博客专栏  >  编程语言   >  Python爬虫之Selenium+Phantomjs+CasperJS

Python爬虫之Selenium+Phantomjs+CasperJS

本文主要介绍基于Windows环境下的Python关于Phantomjs、CasperJS和 Selenium相关的爬取动态生成的信息页面如Ajax、JavaScript等知识,从最基本的安装环境到自动访问页面、表单登录、爬取JS动态信息,希望文章对你有所帮助!

关注
357 已关注
29篇博文
  • [python爬虫] 招聘信息定时系统 (二).调用pyinstaller包生成exe文件

    前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中;这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作。整个系列主要...

    2017-04-24 00:07
    2874
  • [python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL

    这系列文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为当前天的,同时将爬取的内容保存到数据库中,然后制作定时系统每天执行爬取,最后是Python调用相关库发送短信到手机。整个系列主要分为...

    2017-04-22 16:03
    2847
  • [python爬虫] Selenium爬取内容并存储至MySQL数据库

    前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常,在使用Selenium爬虫爬取数据后,需要存储在TXT文本中,但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过Selenium...

    2017-03-13 13:05
    4719
  • [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对...

    2016-12-30 00:19
    5899
  • [python爬虫] Selenium切换窗口句柄及调用Chrome浏览器

    因为我的博客是根据我每个阶段自己做的事情而写的,所以前言可能有点跑题,但它更有利于让我回忆这个阶段自己的所作所为。这篇文章主要介绍Selenium爬虫获取当前窗口句柄、切换窗口句柄以及调用Chrome...

    2016-11-21 04:36
    7247
  • 【Python数据挖掘课程】一.安装Python及爬虫入门介绍

    最近因为需要给大数据金融学院的学生讲解《Python数据挖掘及大数据分析》的课程,所以在这里,我将结合自己的上课内容,详细讲解每个步骤。作为助教,我更希望这门课程以实战为主,同时按小组划分学生,每个小...

    2016-09-19 12:12
    8630
  • [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

    在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,但是上面这种分析HTML来爬取网站内容的方法存在很多弊端,譬如:正则表达式被HTML源码所约束,而不是...

    2015-03-25 17:50
    7211
  • [python爬虫] Selenium常见元素定位方法和操作的学习介绍

    这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ 一.定位元素方法 二.操作元素方法 ...

    2016-07-10 13:10
    17676
  • [Python爬虫] Selenium爬取新浪微博移动端热点话题及评论 (下)

    这篇文章主要讲述了使用python+selenium爬取新浪微博的热点话题和评论信息。其中使用该爬虫的缺点是效率极低,傻瓜式的爬虫,不能并行执行等,但是它的优点是采用分析DOM树结构分析网页源码并进行...

    2016-05-06 04:30
    10435
  • [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息。 用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等。微博信息:...

    2016-04-24 07:29
    9816
  • [python] 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 1.获取标签之间内容 2.获取超链接之间内...

    2016-04-07 06:13
    24229
  • [python爬虫] Selenium爬取新浪微博内容及用户信息

    在进行自然语言处理、文本分类聚类、推荐系统、舆情分析等研究中,通常需要使用新浪微博的数据作为语料,这篇文章主要介绍如果使用Python和Selenium爬取自定义新浪微博语料。因为网上完整的语料比较少...

    2016-02-23 05:32
    18195
  • [python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

    本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-me...

    2016-01-20 04:55
    7785
  • [python] 基于k-means和tfidf的文本聚类代码简单实现

    基本步骤包括: 1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息; 2.使用jieba结巴分词对文本进行中文分词,同时插入字典关于关键...

    2016-01-08 02:52
    25820
  • [python] 安装numpy+scipy+matlotlib+scikit-learn及问题解决

    这篇文章主要讲述Python如何安装Numpy、Scipy、Matlotlib、Scikit-learn等库的过程及遇到的问题解决方法。最近安装这个真是一把泪啊,各种不兼容问题和报错,你可能遇到的问题...

    2015-12-17 22:22
    8587
  • [python] 使用Jieba工具中文分词及文本聚类概念

    这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 ...

    2015-12-11 02:38
    21662
  • [python爬虫] 爬取图片无法打开或已损坏的简单探讨

    本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩...

    2015-12-07 06:25
    6029
  • [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

    本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及...

    2015-12-06 03:42
    5551
  • Python简单实现基于VSM的余弦相似度计算

    在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知...

    2015-11-18 05:40
    11767
  • [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍

    前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是,更...

    2015-11-08 04:22
    5971
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部