requests爬取今日头条街拍的两种方法 分析网页今日头条的网页是通过AJAX加载的所以如果单纯的复制网页是无法查看到内容的,只能看到一堆字典形式HTML代码。这里发现URL的参数共有offset,format,keyword,autoload,count,cur_tab,from,这七种。往下翻,在Query String Parameters中就能发现这些参数往下翻,查看新的AJAX,点开NETWORK对比Q...
requests爬取微博 微博地址:蒋方舟微博用到技术:requests+pyquery分析页面通过对比url发现,似乎只需要 改变page就能完成翻页 尝试把page=3放上去得到了如下内容,json序列化点开调试工具的preview就能看到json反序列化得来全不费工夫,里面包含了我们需要的所有内容接着我们需要构造URL,requests中自带一个params()方法...
requests+BeautifulSoup爬取猫眼电影top100 首先测试一下网页是否有用import requests,jsonfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupdef get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...
beautifulSoup的使用 本篇文章转载于https://cuiqingcai.com/5548.html 1. 简介简单来说,Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。官方解释如下:Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为...
scrapy实战二:爬去谍调网图片并下载 准备导入polliw模块在setting中添加并下载需要了解Scrapy提供了一个 ItemPipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。这条管道,被称作图片管道,在 ItemPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片:将所有下载的图片转换成通用的格式(JPG)和模式(RGB)避免重新下载最近已经下载过...
scrapy实战一:爬取boss直聘信息,存入mysql数据库 scrapy版本:1.5python版本:3.6系统:windows网站链接: www.zhipin.com1 创建项目CTRL+R 输入cmd打开DOS窗口,输入如下命令创建项目(可自定义项目位置)scrapy startproject job_demo 从图片中可以看到,你可以进入你的项目然后创建你的spidercd Job_demo新建spider蜘蛛scrapy genspider j...
scrapy基本介绍及运行原理 Scrapy框架1 scrapy是用纯python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途广泛。2 用户只需要定制开发的几个模块就能轻松实现一个爬虫,用来抓取网页内容、图片。3 scrapy使用Twisted[twistrd](其主要对手是tornado)异步网络框架来处理网络通讯可以加快下载速度,不用自己实现一部框架,并且包含了各种中间件可以灵活的完成各种的需求Scrapy...
scrapy错误 版本:python3.6错误类型:ModuleNotFoundError: No module named 'win32api'原因:缺少模块 'win32api'解决方法:pip install pypiwin32
Xpath介绍及术语 什么是Xpathxpath是一门在XML文档中查找信息的语言Xpath是XSLT中的主要元素Xquery和XPointer均构建于Xpath表达式之上 XPath的特点1 XPath使用路径表达式在XML文档中进行导航2 XPath包含一个标准的函数库3 XPath是XSLT中的主要元素4 XPath是一个W3C标准 XPath路径表达式Xpath使用路径表达式来选取XML文档中的节点或者节点集...
kafka介绍及运行原理 什么是kafkakafka是一个开源流处理平台,由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理,也是为了通过集群来提供实时的消息。简单的来说,它就是一个消息中间件,天然分布式、支持集群的,专注于数据吃的存放缓存的。相关术语broker(经纪人):kafka服...
kafka安装及使用 准备kafka版本: kafka_2.11-1.1.0.tgz将kafka解压在opt目录下(opt为hadoop用户下的目录)tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意,此命令执行条件:我的kafka在hadoop主体目录下,而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录 cd kafka_2.11-1.1.0因为zookeepe...
flume 如何连接hdfs 准备1 启动dfs2 关闭防火墙3 主目录下创建需要监控的文件夹 连接hdfs在flume下的conf下创建a4.confvi conf/a4.test#注意,此命令在flume文件夹下编辑a4.conf#设置agent的source,sink,channela4.channels = c1a4.sinks = k1a4.sources =s1#设置sourcea4....
在spark中将数据插入HIVE表 在spark中将数据插入HIVE表用spark导入到HIVE中效率较高 1 创建数据集的spark D啊他Frames: TmpDF=spark.createDataFrame(RDD,schema) 这里schema是由StructFied函数定义的 2 将数据集的DataFra...
flume简单介绍 什么是flume? flume中文名是日志收集系统。由cloudera提供的一个分布式,高可靠,高可用的服务,用于分布式的海量日志的高效、收集聚合、移动系统,聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具,即把A移动到B。flume架构介绍 flume最简单的部署单元叫flume Agent,接收或生成数据并缓存数据知道最终写入到Agen...
HDFS的读写流程 HDFS写流程客户端发起写请求道namenode,namenode返回可使用的资源,客户端根据资源使用情况对要写入的数据分块,逐一上传块到datanode,datanode获取上传块数据并写入磁盘,完成后报告给namenode块信息,同时也告诉客户端写入成功,客户端继续后续快的写入,在此期间namenode接受到datanode的块写入完成信息之后根据备份数直到满1 首先客户端发起写请求到n...
单节点Flume部署 准备 Flume版本: apache-flume-1.8.0-bin.tar.gz 解压Flume: tar -zxvf apache-flume-1.8.0-bin.tar.gz配置文件 在Flume的conf下创建新文件a1.conf 并作如下编辑#定义agent的source channel sinksa1.sources = sr1a1.chan...
sparkSQL和DataFrame的简单介绍 sparkSQL 1 spark中原生的RDD是没有数据结构的 2 对RDD的变换和操作是不能采用传统的SQL方法 3 sparkSQL应运而生并建立在shark上,伯克利实验室spark生态环境的组件之一 4 shark最初很大程度上以来HIVE图语法解析器,查询优化器等 5 改进的spark SQL框架摆脱了对HIVE的依赖性,所以无...
hive安装及绑定mysql 准备版本:hive2.3.2解压hive 命令:tar -zxvf hive2.3.2解压好后,hive下conf需要一个hive-site.xml文件,hive目录中没有,需要复制hive-default.xml.template 为hive-site.xml 命令:cp hive-default.xml.template hive-site.sh设置hive环境变量进入hive...
hive 遇到的两个问题 其一,启动hive时报错如下:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive下的conf文件夹下的 hive-env.sh中HADOOP路径出现问题。解决方法:进入 hive下的conf文件夹,复制hive-env.sh....
linux下安装MYSQL 准备MYSQL版本: mysql57-community-release-el7-11.noarch.rpm LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库: 命令:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm下载mysql yum仓库 命令: yum ...