__顾影自怜
码龄7年
关注
提问 私信
  • 博客:106,923
    106,923
    总访问量
  • 39
    原创
  • 1,203,313
    排名
  • 26
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江西省
  • 加入CSDN时间: 2017-09-21
博客简介:

a2639491403的博客

查看详细资料
个人成就
  • 获得30次点赞
  • 内容获得9次评论
  • 获得114次收藏
创作历程
  • 36篇
    2018年
  • 5篇
    2017年
成就勋章
TA的专栏
  • 转载笔记
    3篇
  • 个人
    11篇
  • hive
    2篇
  • spark
    1篇
  • linux基础
    1篇
  • hadoop
    2篇
  • mysql
    1篇
  • flume
    3篇
  • kafka
    2篇
  • scrapy
    3篇
  • requests
    3篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

requests爬取今日头条街拍的两种方法

 分析网页今日头条的网页是通过AJAX加载的所以如果单纯的复制网页是无法查看到内容的,只能看到一堆字典形式HTML代码。这里发现URL的参数共有offset,format,keyword,autoload,count,cur_tab,from,这七种。往下翻,在Query String Parameters中就能发现这些参数往下翻,查看新的AJAX,点开NETWORK对比Q...
原创
发布博客 2018.08.05 ·
1941 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

requests爬取微博

微博地址:蒋方舟微博用到技术:requests+pyquery分析页面通过对比url发现,似乎只需要 改变page就能完成翻页 尝试把page=3放上去得到了如下内容,json序列化点开调试工具的preview就能看到json反序列化得来全不费工夫,里面包含了我们需要的所有内容接着我们需要构造URL,requests中自带一个params()方法...
原创
发布博客 2018.08.01 ·
2533 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

requests+BeautifulSoup爬取猫眼电影top100

首先测试一下网页是否有用import requests,jsonfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupdef get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...
原创
发布博客 2018.07.31 ·
2528 阅读 ·
3 点赞 ·
1 评论 ·
12 收藏

beautifulSoup的使用

本篇文章转载于https://cuiqingcai.com/5548.html 1. 简介简单来说,Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。官方解释如下:Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为...
转载
发布博客 2018.07.31 ·
408 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

scrapy实战二:爬去谍调网图片并下载

准备导入polliw模块在setting中添加并下载需要了解Scrapy提供了一个 ItemPipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。这条管道,被称作图片管道,在 ItemPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片:将所有下载的图片转换成通用的格式(JPG)和模式(RGB)避免重新下载最近已经下载过...
原创
发布博客 2018.06.07 ·
4709 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scrapy实战一:爬取boss直聘信息,存入mysql数据库

scrapy版本:1.5python版本:3.6系统:windows网站链接: www.zhipin.com1 创建项目CTRL+R 输入cmd打开DOS窗口,输入如下命令创建项目(可自定义项目位置)scrapy startproject job_demo 从图片中可以看到,你可以进入你的项目然后创建你的spidercd Job_demo新建spider蜘蛛scrapy genspider j...
原创
发布博客 2018.06.03 ·
1775 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

scrapy基本介绍及运行原理

Scrapy框架1 scrapy是用纯python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途广泛。2 用户只需要定制开发的几个模块就能轻松实现一个爬虫,用来抓取网页内容、图片。3 scrapy使用Twisted[twistrd](其主要对手是tornado)异步网络框架来处理网络通讯可以加快下载速度,不用自己实现一部框架,并且包含了各种中间件可以灵活的完成各种的需求Scrapy...
原创
发布博客 2018.05.10 ·
3408 阅读 ·
2 点赞 ·
0 评论 ·
11 收藏

scrapy错误

版本:python3.6错误类型:ModuleNotFoundError: No module named 'win32api'原因:缺少模块  'win32api'解决方法:pip install pypiwin32
原创
发布博客 2018.05.03 ·
304 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Xpath介绍及术语

什么是Xpathxpath是一门在XML文档中查找信息的语言Xpath是XSLT中的主要元素Xquery和XPointer均构建于Xpath表达式之上 XPath的特点1 XPath使用路径表达式在XML文档中进行导航2 XPath包含一个标准的函数库3 XPath是XSLT中的主要元素4 XPath是一个W3C标准  XPath路径表达式Xpath使用路径表达式来选取XML文档中的节点或者节点集...
转载
发布博客 2018.05.02 ·
575 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka介绍及运行原理

什么是kafkakafka是一个开源流处理平台,由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理,也是为了通过集群来提供实时的消息。简单的来说,它就是一个消息中间件,天然分布式、支持集群的,专注于数据吃的存放缓存的。相关术语broker(经纪人):kafka服...
原创
发布博客 2018.04.30 ·
412 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

kafka安装及使用

准备kafka版本: kafka_2.11-1.1.0.tgz将kafka解压在opt目录下(opt为hadoop用户下的目录)tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意,此命令执行条件:我的kafka在hadoop主体目录下,而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录 cd kafka_2.11-1.1.0因为zookeepe...
原创
发布博客 2018.04.27 ·
6779 阅读 ·
1 点赞 ·
3 评论 ·
7 收藏

flume 如何连接hdfs

准备1    启动dfs2    关闭防火墙3    主目录下创建需要监控的文件夹 连接hdfs在flume下的conf下创建a4.confvi conf/a4.test#注意,此命令在flume文件夹下编辑a4.conf#设置agent的source,sink,channela4.channels = c1a4.sinks = k1a4.sources =s1#设置sourcea4....
原创
发布博客 2018.04.26 ·
2769 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

在spark中将数据插入HIVE表

在spark中将数据插入HIVE表用spark导入到HIVE中效率较高    1    创建数据集的spark D啊他Frames:                        TmpDF=spark.createDataFrame(RDD,schema)                        这里schema是由StructFied函数定义的     2    将数据集的DataFra...
原创
发布博客 2018.04.26 ·
50558 阅读 ·
6 点赞 ·
4 评论 ·
52 收藏

flume简单介绍

什么是flume?        flume中文名是日志收集系统。由cloudera提供的一个分布式,高可靠,高可用的服务,用于分布式的海量日志的高效、收集聚合、移动系统,聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具,即把A移动到B。flume架构介绍        flume最简单的部署单元叫flume Agent,接收或生成数据并缓存数据知道最终写入到Agen...
原创
发布博客 2018.04.26 ·
313 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS的读写流程

HDFS写流程客户端发起写请求道namenode,namenode返回可使用的资源,客户端根据资源使用情况对要写入的数据分块,逐一上传块到datanode,datanode获取上传块数据并写入磁盘,完成后报告给namenode块信息,同时也告诉客户端写入成功,客户端继续后续快的写入,在此期间namenode接受到datanode的块写入完成信息之后根据备份数直到满1    首先客户端发起写请求到n...
原创
发布博客 2018.04.24 ·
1051 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

单节点Flume部署

准备    Flume版本: apache-flume-1.8.0-bin.tar.gz    解压Flume:    tar     -zxvf     apache-flume-1.8.0-bin.tar.gz配置文件    在Flume的conf下创建新文件a1.conf 并作如下编辑#定义agent的source channel sinksa1.sources = sr1a1.chan...
原创
发布博客 2018.04.24 ·
664 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

sparkSQL和DataFrame的简单介绍

sparkSQL    1    spark中原生的RDD是没有数据结构的    2    对RDD的变换和操作是不能采用传统的SQL方法    3    sparkSQL应运而生并建立在shark上,伯克利实验室spark生态环境的组件之一    4    shark最初很大程度上以来HIVE图语法解析器,查询优化器等    5    改进的spark SQL框架摆脱了对HIVE的依赖性,所以无...
原创
发布博客 2018.04.22 ·
1299 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive安装及绑定mysql

准备版本:hive2.3.2解压hive    命令:tar -zxvf hive2.3.2解压好后,hive下conf需要一个hive-site.xml文件,hive目录中没有,需要复制hive-default.xml.template  为hive-site.xml    命令:cp hive-default.xml.template  hive-site.sh设置hive环境变量进入hive...
原创
发布博客 2018.04.17 ·
430 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 遇到的两个问题

其一,启动hive时报错如下:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive下的conf文件夹下的 hive-env.sh中HADOOP路径出现问题。解决方法:进入 hive下的conf文件夹,复制hive-env.sh....
原创
发布博客 2018.04.14 ·
1712 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

linux下安装MYSQL

准备MYSQL版本:    mysql57-community-release-el7-11.noarch.rpm  LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库:    命令:rpm -Uvh  mysql57-community-release-el7-11.noarch.rpm下载mysql yum仓库    命令:    yum ...
原创
发布博客 2018.04.14 ·
241 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多