数据挖掘
Loyios
随便写写
展开
-
Python数据挖掘_Python2模块Spynner的安装(安装失败)
我们一起来学习如何使用Spynner进行数据抓取 单数据抓取机顾名思义就是单进程的数据抓取形式,通常在数据不是很多的时候被应用首先我们要介绍Spynner Spynner在抓取时可以出现一个浏览器,在浏览器中可以观察抓取过程的变化,Spynner还可以加载javascript生成的动态内容,然后抓取这部分的动态内容Spynner其他功能与requests模块基本相同,除了上面的功能时spynner...原创 2018-04-23 08:56:58 · 327 阅读 · 0 评论 -
数据挖掘_requests模块的post方法
前面已经跟大家讲了requests模块的get方法,这一篇文章我们要介绍的是requests模块中的另一个比较常用的方法,post方法 post方法的形式相比于get要复杂一些,这时因为post在提交时需要提供一些数据信息,对于使用来说,两种方法基本差不多 请注意,查询字符串(名称/值对)是在 POST 请求的 HTTP 消息主体中发送的:下面我们通过一个例子简单了解一下post方法的使用 首先我...原创 2018-04-27 14:37:43 · 255 阅读 · 0 评论 -
数据挖掘_利用协程抓取
协程,又称微线程,纤程。英文名Coroutine。协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。所以子程序调用是通过栈实现的,一个线程就是执行一个子程序。子程序调用总是一个入口,一次返回,调用顺序是明确的。而协程的调用和子程序不...原创 2018-05-05 11:16:58 · 239 阅读 · 1 评论 -
数据挖掘_requests模块的get方法
关于requests模块之前在跟大家讲通过字典列表批量获取数据的时候用过这个模块安装过程就不再讲解了requests模块是python的http库,可以完成绝大部分与http应用相关的工作,所以我们可以用它来进行数据抓取工作requests模块有两个常用的方法,get 和 post 我们也主要只是围绕这两个方法来讲解requests模块 注意:requests不能模拟浏览器的全部行为 get方法在...原创 2018-04-26 14:13:48 · 360 阅读 · 0 评论 -
python数据挖掘_Json结构分析
json是一种轻量级的数据交换格式,也可以说是一种配置文件的格式这种格式的文件是我们在数据处理经常会遇到的python提供内置的模块json,只需要在使用前导入即可 你可以通过帮助函数查看json的帮助文档 json常用的方法有load、loads、dump以及dumps,这个都属于python初级,我不做过多解释json可以结合数据库一起使用,在这以后要处理大量数据时非常有用 下面我们正式来利...原创 2018-04-21 10:13:24 · 315 阅读 · 0 评论 -
Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中,我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库BeautifulSoup BeautifulSoup 的官方文档网站如下https://www.crummy.com/software/BeautifulSoup/bs4/doc/ BeautifulSoup可以在HTML和XML的结构化文档中抽取出数据,而且还提供了各类方法,可以很方...原创 2018-04-19 16:09:00 · 332 阅读 · 0 评论 -
数据挖掘_多进程抓取
之前说过Python的多线程只能运行在一个单核上,也就是各线程是以并发的方式异步执行的这篇文章我们来聊聊Python多进程的方式 多进程依赖于所在机器的处理器个数,在多核机器上进行多进程编程时,各核上运行的进程之间是并行执行的,可以利用进程池,是每一个内核上运行一个进程,当翅中的进程数量大于内核总数时,待运行的进程会等待,直至其他进程运行完毕让出内核多进程就相当于下面这种卖票的行为 在这里要注...原创 2018-05-01 08:59:08 · 210 阅读 · 0 评论 -
数据挖掘_多线程抓取
在这一篇文章中,我们主要来介绍多线程抓取数据。 多线程是以并发的方式执行的,在这里要注意,Python的多线程程序只能运行在一个单核上以并发的方式运行,即便是多核的机器,所以说,使用多线程抓取可以极大地提高抓取效率 下面我们以requests为例介绍多线程抓取,然后在通过与单线程程序比较,体会多线程的效率的提高 这一次,我就不用我的网站做测试了,因为网站的内容此时还并不是太多,不能体现多线程的优势...原创 2018-04-30 10:47:02 · 357 阅读 · 0 评论 -
数据挖掘_通过字典列表批量抓取网页数据
在进行网页数据抓取时我们要先安装一个模块 requests通过终端安装如下图因为我之前安装过了,所以不会显示安装进度条,安装也非常简单,如果你配置好环境变量的话,你只需要执行以下命令pip install requests 如果提示要升级,就按下面升级pippip install --upgrade pip 安装完模块后我们正式开始进行数据爬取先说一下requests的用法,导入这个模块后,...原创 2018-04-19 08:18:06 · 769 阅读 · 0 评论 -
数据挖掘_并行并发介绍和同步异步介绍
前面跟大家讲的request s和spynner都是单进程(单线程)的顺序抓取,而并发和并行执行的异步抓取会极大地提高抓取效率。 并行和并发并发和并行使两个相似的概念,并发是指在一个时间段内发生若干事件的情况,并行是指在同一时刻发生若干事件的情况。我们可以以CPU的工作方式来说明这两个概念 单核CPU下,多任务操作系统的各任务是以并发的方式运行的,因为只有一个处理器,所以各任务会以分时的方式在一...原创 2018-04-28 14:41:35 · 333 阅读 · 0 评论