requests爬取今日头条街拍的两种方法

  分析网页 今日头条的网页是通过AJAX加载的所以如果单纯的复制网页是无法查看到内容的,只能看到一堆字典形式HTML代码。 这里发现URL的参数共有offset,format,keyword,autoload,count,cur_tab,from,这七种。 往下翻,在Query Stri...

2018-08-05 19:32:04

阅读数 918

评论数 0

requests爬取微博

微博地址:蒋方舟微博 用到技术:requests+pyquery 分析页面 通过对比url发现,似乎只需要 改变page就能完成翻页  尝试把page=3放上去得到了如下内容,json序列化 点开调试工具的preview就能看到json反序列化 得来全不费工夫,...

2018-08-01 21:22:10

阅读数 515

评论数 0

requests+BeautifulSoup爬取猫眼电影top100

首先测试一下网页是否有用 import requests,json from requests.exceptions import RequestException from bs4 import BeautifulSoup def get_one_page(url): headers...

2018-07-31 19:47:09

阅读数 559

评论数 1

beautifulSoup的使用

本篇文章转载于https://cuiqingcai.com/5548.html   1. 简介 简单来说,Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。官方解释如下: Beautiful Soup提供一些简单的、Python...

2018-07-31 11:27:14

阅读数 142

评论数 0

scrapy实战二:爬去谍调网图片并下载

准备导入polliw模块在setting中添加并下载需要了解Scrapy提供了一个 ItemPipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。这条管道,被称作图片管道,在 ItemPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下...

2018-06-07 20:22:30

阅读数 269

评论数 0

scrapy实战一:爬取boss直聘信息,存入mysql数据库

scrapy版本:1.5python版本:3.6系统:windows网站链接: www.zhipin.com1 创建项目CTRL+R 输入cmd打开DOS窗口,输入如下命令创建项目(可自定义项目位置)scrapy startproject job_demo 从图片中可以看到,你可以进入你的项目...

2018-06-03 18:48:54

阅读数 623

评论数 0

scrapy基本介绍及运行原理

Scrapy框架1 scrapy是用纯python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途广泛。2 用户只需要定制开发的几个模块就能轻松实现一个爬虫,用来抓取网页内容、图片。3 scrapy使用Twisted[twistrd](其主要对手是tornado)异步网络框架来处理网...

2018-05-10 20:54:13

阅读数 1345

评论数 0

scrapy错误

版本:python3.6错误类型:ModuleNotFoundError: No module named 'win32api'原因:缺少模块  'win32api'解决方法:pip install pypiwin32

2018-05-03 15:09:47

阅读数 162

评论数 0

Xpath介绍及术语

什么是Xpathxpath是一门在XML文档中查找信息的语言Xpath是XSLT中的主要元素Xquery和XPointer均构建于Xpath表达式之上 XPath的特点1 XPath使用路径表达式在XML文档中进行导航2 XPath包含一个标准的函数库3 XPath是XSLT中的主要元素4 XPa...

2018-05-02 23:13:15

阅读数 95

评论数 0

kafka介绍及运行原理

什么是kafkakafka是一个开源流处理平台,由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理,也是为了通过集群来提供实时的消息。简单的来说,它就是一个消息...

2018-04-30 17:21:19

阅读数 87

评论数 0

kafka安装及使用

准备kafka版本: kafka_2.11-1.1.0.tgz将kafka解压在opt目录下(opt为hadoop用户下的目录)tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意,此命令执行条件:我的kafka在hadoop主体目录下,而opt在hadoop目录下。...

2018-04-27 00:13:38

阅读数 5091

评论数 2

flume 如何连接hdfs

准备1    启动dfs2    关闭防火墙3    主目录下创建需要监控的文件夹 连接hdfs在flume下的conf下创建a4.confvi conf/a4.test #注意,此命令在flume文件夹下编辑a4.conf#设置agent的source,sink,channel a4.chann...

2018-04-26 21:21:15

阅读数 1104

评论数 0

在spark中将数据插入HIVE表

在spark中将数据插入HIVE表用spark导入到HIVE中效率较高    1    创建数据集的spark D啊他Frames:                        TmpDF=spark.createDataFrame(RDD,schema)                    ...

2018-04-26 16:19:04

阅读数 8668

评论数 0

flume简单介绍

什么是flume?        flume中文名是日志收集系统。由cloudera提供的一个分布式,高可靠,高可用的服务,用于分布式的海量日志的高效、收集聚合、移动系统,聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具,即把A移动到B。flume架构介绍      ...

2018-04-26 16:17:04

阅读数 129

评论数 0

HDFS的读写流程

HDFS写流程客户端发起写请求道namenode,namenode返回可使用的资源,客户端根据资源使用情况对要写入的数据分块,逐一上传块到datanode,datanode获取上传块数据并写入磁盘,完成后报告给namenode块信息,同时也告诉客户端写入成功,客户端继续后续快的写入,在此期间nam...

2018-04-24 18:51:51

阅读数 646

评论数 0

单节点Flume部署

准备    Flume版本: apache-flume-1.8.0-bin.tar.gz    解压Flume:    tar     -zxvf     apache-flume-1.8.0-bin.tar.gz配置文件    在Flume的conf下创建新文件a1.conf 并作如下编辑#定义...

2018-04-24 12:52:41

阅读数 285

评论数 0

sparkSQL和DataFrame的简单介绍

sparkSQL    1    spark中原生的RDD是没有数据结构的    2    对RDD的变换和操作是不能采用传统的SQL方法    3    sparkSQL应运而生并建立在shark上,伯克利实验室spark生态环境的组件之一    4    shark最初很大程度上以来HIVE图...

2018-04-22 16:06:47

阅读数 598

评论数 0

hive安装及绑定mysql

准备版本:hive2.3.2解压hive    命令:tar -zxvf hive2.3.2解压好后,hive下conf需要一个hive-site.xml文件,hive目录中没有,需要复制hive-default.xml.template  为hive-site.xml    命令:cp hive...

2018-04-17 22:54:54

阅读数 194

评论数 0

hive 遇到的两个问题

其一,启动hive时报错如下:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive下的conf文件夹下的 hive-env.s...

2018-04-14 22:29:27

阅读数 529

评论数 0

linux下安装MYSQL

准备MYSQL版本:    mysql57-community-release-el7-11.noarch.rpm  LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库:    命令:rpm -Uvh  mysql57-community-re...

2018-04-14 15:10:50

阅读数 88

评论数 0

提示
确定要删除当前文章?
取消 删除