大数据_小牛头#的博客-CSDN博客

大数据

关注

文章平均质量分 92

关注数：文章数：38 文章阅读量：54577 文章收藏量：295

作者: 小牛头#

随静写码！

展开

Sqoop导入导出集合

安装Sqoop-1.4.7.bin_hadoop-2.6 提取码：nnfq利用Xftp上传到centOS7集群，可能要修改文件用户组解压并设置软连接tar -zxvf sqoop-1.4.7.bin_hadoop-2.6.0.tar.gz -C /user设置软连接cd /userln -s sqoop-1.4.7.bin_hadoop-2.6.0 sqoop配置环境变量...

原创 2020-04-29 15:25:43 · 252 阅读 · 0 评论
将不同的列表与字典的key值对比

适用的场景：导入excel表到MySQL，但是有些excel的表头与我们想要的字典对应的key值不一致，所有得到的value为None例如这是3个excel文件的表头need_columns=[ ['学号', '姓名', '思想政治', '身心健康', '创新创业', '技术技能', '志愿服务', '人文艺术', '综合素质理论', '总分', 'GPA(教务处提供）', '综合素质测...

原创 2019-10-18 09:06:58 · 519 阅读 · 0 评论
使用Python将给定 csv 格式的数据文件写入 Mysql 数据库中

import csvimport pymysqlimport codecsdef conn_mysql():conn=pymysql.connect(host=‘localhost’,port=‘3306’,user=‘root’,password=‘root’,charset=‘utf-8’)return conndef create_db_table():cur=co...

原创 2019-06-15 15:50:16 · 4762 阅读 · 0 评论
爬虫--js渲染的网页的基本解决方法（提供思路）

https://blog.csdn.net/qq_40925239/article/details/89453291

翻译 2019-05-11 17:34:30 · 2485 阅读 · 1 评论
我的大数据之路--hive-1.2.2的安装与配置

hive

原创 2019-05-11 17:27:20 · 225 阅读 · 0 评论
我的大数据之路--玩玩用户组

更改用户组由于我在hadoop用户下创建文件时，文件的权限为我的kafka全是hadoop的，假如不改文件的组别，我这边时测试不成功的。在消费者端一直显示不出信息。所以，在hadoop用户下，希望所有的文件都是hadoop hadoop的。比较可靠，这样的话就一定不会出现权限不足的原因查看当前登陆组别groups 将hadoop用户添加到hadoop组usermod -a -G ...

原创 2019-05-01 09:59:07 · 90 阅读 · 0 评论
pycharm不能使用anaconda下的matplotlib，无法绘图的问题

pycharm使用anacodna的解释器，可以import matplotlib，但绘图运行出错，错误信息;failed to import any qt binding，解决办法如下解决方法删除之后，jupyter notebook中也无法再使用绘图，该包从anaconda中被删除在anaconda重装matplotlib打开Anaconda Prompt下，配置好环境变量后，执行...

原创 2019-05-08 22:18:33 · 2659 阅读 · 0 评论
我的大数据之路--hadoop2.6.5集群节点的动态增加与删除

hadoop2.6.5集群节点的动态增加与删除增加datanode一，首先在创建一台虚拟机，也可以复制已有的虚拟机二、进入之后修改hostname和ipvi /etc/hostnamevi /etc/sysconfig/network-scripts/ifcfg-enp0s3 #ifcfg-enp0s3 可能有所不同三、重启reboot四、修改Master的/etc/h...

原创 2019-05-11 17:27:34 · 364 阅读 · 0 评论
我的大数据之路--一键启动和关闭zookeeper，kafka

转载请注明出处一键开启zookeepervi zookeeper_start.sh-----------------------------------------------------#!/bin/bash ZOOKEEPER_HOME=/user/zookeeper-3.4.5 #你自己的安装目录 if [ $ZOOKEEPER_HOME != "" ]; then...

原创 2019-04-30 19:35:17 · 242 阅读 · 0 评论
scrapy爬虫获取Ajax请求

本次练习网站为智联招聘网，要先注册登录。传送门看到Ajax：登录网站–>F12–>network–>XHR–>F5–>Preview展开result，可以看到很多的招聘数据，这就是我们需要的。现在开始写代码一、创建scrapy项目。scrapy startproject CrawPosition二、使用pycharm来编辑代码open项目之后可以看到...

原创 2019-06-15 15:49:57 · 3397 阅读 · 1 评论
我的大数据之路 -- 拉钩再战

话不多说，之前分析过了import jsonimport requestsimport csvimport timedef get_json(url, datas): my_headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (...

原创 2019-05-14 18:08:21 · 348 阅读 · 2 评论
python3 format()构造URL报错问题（已解决）

今天遇到一个特神奇的事情，在构造URL的时候， format()函数居然不能传入两个参数。不知道是不是环境的问题。1.不解代码tag=input('请输入岗位：')urls = ['https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=90&cityId=489&salary=0,0&kw='+tag+'&a...

原创 2019-05-09 20:15:22 · 3358 阅读 · 0 评论
我的大数据之路 -- python3+Ajax实战+selenium获取-南瓜屋的爬取（初学者必看）

南瓜屋安装 selenium ，安装PhantomJS测试成功之后可以先看一下selenium的基本使用方法 selenium的使用当理解之后，我们就开始做第一个demo先分析南瓜屋的网页，顺便看几个故事吧，先放松放松，然后一天就过去了，哈哈。说笑的，怎么可能。第二天咳咳咳~ 今天呢，我们开始具体的分析网页吧，首先我们看到首页，一般来说爬虫需要先找到URL的规律，然后我们就往...

原创 2019-05-07 16:38:11 · 440 阅读 · 0 评论
python3读取csv文件任意行列。

enumerate()enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标读取首行filename='D:/data.csv'with open(filename,'r',encoding='utf-8')as f: read=f.readlines() for index,info in enumerat...

原创 2019-05-23 09:53:53 · 7446 阅读 · 0 评论
python3将json任意行文件转为csv文件并保存

将json格式的前3000条数据存入csvjson格式类型：{"address": "华山路31号", "addressExtend": "屯溪老街", "amenities": [1, 2, 3, 5, 10, 12], "brandName": null, "businessZoneList": null, "cityCode": 1004, "cityName": "黄山", "cove...

原创 2019-05-23 17:11:42 · 5707 阅读 · 5 评论
hive性能调优

https://blog.csdn.net/zdy0_2004/article/details/81613230

转载 2019-06-05 15:19:14 · 465 阅读 · 0 评论
我的大数据之路--2019拉钩网爬取（破解反爬虫）

拉钩拉钩，你都不给我钩，我怎么拉呀序言：号称爬虫界的喜马拉雅–拉钩，今天看看威力如何吧！！！只是用作简单学习，想要获得大数据，请联系拉钩工程师。一、打开网页，输入数据挖掘。右键查看源代码（谷歌浏览器），发现什么鸟数据都没有。猜测是Ajax请求。然后F12分析源码打开在线解析json 点这里，把Response返回的JSON格式输入进去，看是不是我们想要的。恩恩，是这个没错了。接下来...

原创 2019-04-30 11:25:39 · 2098 阅读 · 6 评论
Flask之路--慢慢看

1.欢迎来到 Flask 的世界2.Flask——快速上手3.Flask快速入门，知识整理4.Flask—框架快速入门5.Python Flask框架：零基础web开发入门教程6.Flask 快速入门7.python flask搭建web应用8.Python Flask教程（一）9.Flask框架快速入门——博客专栏10.一文看懂Flask的日志使用姿势11.python 框架...

转载 2019-05-05 16:05:35 · 180 阅读 · 0 评论
我的大数据之路 -- storm简单demo和理解

StormMaven依赖<dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <ve...

原创 2019-05-04 22:11:01 · 205 阅读 · 0 评论
我的大数据之路 -- Hbase框架的使用（一）

官方网址：http://hbase.apache.org/HBase是什么妖怪？要解释HBase，我们就先说一说经常接触到的RDBMS，即关系型数据库：一、mysql：有开源社区版本的，有企业收费版本的遵循主从架构端口号：3306sqlserver：微软公司开发的产品，主要用于windows平台下的项目端口号：1433二、 oracle：超...

转载 2019-05-02 12:45:21 · 237 阅读 · 0 评论
我的大数据之路--centOS mysql5.7分布式的安装

安装MySql 5.7root用户下 yum install weget由于CentOS 的yum源中没有mysql，需要到mysql的官网下载yum repo配置文件。wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpmrepo安装rmp rmp -ivh mysql57-communi...

原创 2019-04-27 13:54:00 · 178 阅读 · 0 评论
我的大数据之路--Flume1.6+kafka1.0实战

spark streaming + kafka +python

原创 2019-04-27 13:38:19 · 353 阅读 · 0 评论
我的大数据之路--spark RDD

Spark RDD1. 弹性分布式数据集RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显-式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。2...

原创 2019-04-23 09:18:42 · 166 阅读 · 0 评论
我的大数据之路--Flume

具体案例参考https://www.cnblogs.com/netbloomy/p/6666683.html

原创 2019-04-26 16:13:47 · 131 阅读 · 0 评论
我的大数据之路--kafka

kafka什么是kafka？？官方介绍–挺有趣的http://orchome.com/kafka/indexApache kafka是消息中间件的一种，我发现很多人不知道消息中间件是什么，在开始学习之前，我这边就先简单的解释一下什么是消息中间件，只是粗略的讲解，目前kafka已经可以做更多的事情。举个例子，生产者消费者，生产者生产鸡蛋，消费者消费鸡蛋，生产者生产一个鸡蛋，消费者就消费一个...

原创 2019-05-11 17:27:50 · 223 阅读 · 0 评论
Python3+MySQL+Flask+Echarts

前提是MySQL上已经存在数据，我们使用python连接MySQL获取数据，接着用python的web框架Flask作为后台做，Echarts可视化。简单演示：MySQL上的数据形如连接数据库-使用的库为import pymysqlHTML使用Echarts开源的模板-这里命名my_template.html使用的Flask库为：from flask import Flask,ren...

原创 2019-04-22 10:03:52 · 10676 阅读 · 20 评论
我的大数据之路 --pyspark连接mysql数据库

pyspark连接mysql数据库说明一点，spark2.0（包括spark2.0）以下的版本不支持python3.6以上的版本（包括python3.6）。（亲测到怀疑人生）三台机都要。由于CentOS本身自带python2.7.5，而2.-.-现在已经逐步退出。所以建议大家使用python3。下载python3以及安装点这里呀下载mysql:jdbc驱动包提取码 q4nn ，...

原创 2019-04-21 20:54:49 · 1485 阅读 · 0 评论
我的大数据之路 --配置HA高可用Hadoop+ zookeeper

CentOS下载地址选择CentOS-7-x86_64-Minimal-1708.iso版本安装教程参考一个镜像安装三个CentOS虚拟机、三个账号都为root、密码***一个主机名为Master、一个为Slave1、一个为Slave2之后可以根据文件 /etc/hostname 更改完成登录之后如图：登录成功后，设置静态IP|Master|...

原创 2019-05-11 17:28:29 · 346 阅读 · 0 评论
我的大数据之路--搭建高可用 Hbase

需要先搭建高可用hadoop具体看我另一篇博客https://blog.csdn.net/qq_41562377/article/details/89365685Hbase-1.2.11下载1）下载好后压缩到/user下2）配置环境变量 vi /etc/profile export HBASE_HOME=/user/hbase-1.2.11 export PATH=$...

原创 2019-05-11 17:28:11 · 165 阅读 · 0 评论
我的大数据之路 -- flume+kafka+spark streaming+hdfs

小综合实战思路如下一、建立数据集去网上下载一篇英语作文vi Chinese_Dream.txt-----------------------------------------------Many years ago, when China was poor and lagged much behind the world, a lot of men went to Californ...

原创 2019-04-29 10:46:45 · 971 阅读 · 1 评论
CentOS 安装 python3

https://www.cnblogs.com/JahanGu/p/7452527.html

转载 2019-04-19 20:46:31 · 94 阅读 · 0 评论
我的大数据之路 -- storm-1.2.2 高可用安装。

stom简单理解一、Storm集群架构Nimbus ：Storm集群的Master节点，负责分发用户代码，指派给具体的Supervisor节点上的Worker节点，去运行Topology对应的组件（Spout/Bolt）的Task。Supervisor ：Storm集群的从节点，负责管理运行在Supervisor节点上的每一个Worker进程的启动和终止。通过Storm的配置文件中的...

原创 2019-05-11 17:27:02 · 195 阅读 · 0 评论
我的大数据之路 -- 猫眼电影再战

转载请带上链接第一篇的猫眼电影爬取的整合性不是很强，而且整个的爬取速度较慢。现在来一篇全猫眼电影都能爬取的，而且速度还不慢。主要是今天在网上看到评论的一个接口，话不多说，嘿嘿嘿~~复联四的URLhttp://m.maoyan.com/mmdb/comments/movie/248172.json?毒液的URLhttp://m.maoyan.com/mmdb/comments/movi...

原创 2019-05-03 22:59:07 · 428 阅读 · 0 评论
我的大数据之路 -- kafka读取本地数据（python3）

kafka读取本地数据前提条件，本机可以ping通虚拟机，开启kafka等相关集群呆滞.txt懵懵的人生呆滞向前让微风随我吟唱伴我流浪来安慰这颗孤独的心脏其实我们都一样焦虑无力就好像滚雪球一样越滚越大谁的青春不马乱兵荒但不同的是我在祈祷而你在远方一、安装kafka包pip3 install kafka或者pip3 install kafka-python二...

原创 2019-04-28 20:00:24 · 1180 阅读 · 0 评论
我的大数据之路 -- 爬取猫眼电影复联4的影评

吐槽- - - 刚刚没电了，写的东西TM全没了，又要重写一遍。CSDN啊，你已经长大了，该学会自动保存了。昨天和两位小伙伴去看了，总体感觉还是不错的。整个的过程中能引起观众笑的恐怕就只有浩克出现的那几段。看3D带两副眼睛是真的难受。再加上临时出现一些人生大事（其实我不想发生的）。看完后脑袋愈发觉得疼痛，记昨晚第一次失眠。脑袋还是有点疼，但是技术还是要学的。我很好奇观众对复联4的评价，所以今天...

原创 2019-05-03 20:34:30 · 885 阅读 · 1 评论
我的大数据之路--kafka1.0集成spark streaming2.0--python3

kafka1.0–>spark streaming2.0一、安装依赖包spark-stream-kafka-0.10_2.11-2.0.0.jarkafka-2.11-1.0.2.jar二、

原创 2019-04-28 16:00:33 · 832 阅读 · 0 评论
Spark SQL DataFrame入门必备操作

Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。特点：1.易整合2.统一的数据访问方式3.兼容Hive4.标准的数据连接DataFrames与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据...

原创 2019-04-23 18:19:04 · 214 阅读 · 0 评论
我的大数据之路-- Spark2.0-hadoop2.6.5高可用集群搭建

Spark2.0下载root用户下将下载好的压缩包压解到/user目录下 tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz -C /user在 /user目录下创建软连接(快捷方式)ln -s spark-2.0.0-bin-hadoop2.6/ spark修改配置文件spark-env.sh，没有就将spark-env.sh.tem...

原创 2019-05-11 17:28:02 · 592 阅读 · 0 评论

大数据

作者: 小牛头#

Sqoop导入导出集合

将不同的列表与字典的key值对比

使用Python将给定 csv 格式的数据文件写入 Mysql 数据库中

爬虫--js渲染的网页的基本解决方法（提供思路）

我的大数据之路--hive-1.2.2的安装与配置

我的大数据之路--玩玩用户组

pycharm不能使用anaconda下的matplotlib，无法绘图的问题

我的大数据之路--hadoop2.6.5集群节点的动态增加与删除

我的大数据之路--一键启动和关闭zookeeper，kafka

scrapy爬虫获取Ajax请求

我的大数据之路 -- 拉钩再战

python3 format()构造URL报错问题（已解决）

我的大数据之路 -- python3+Ajax实战+selenium获取-南瓜屋的爬取（初学者必看）

python3读取csv文件任意行列。

python3将json任意行文件转为csv文件并保存

hive性能调优

我的大数据之路--2019拉钩网爬取（破解反爬虫）

Flask之路--慢慢看

我的大数据之路 -- storm简单demo和理解

我的大数据之路 -- Hbase框架的使用（一）

我的大数据之路--centOS mysql5.7分布式的安装

我的大数据之路--Flume1.6+kafka1.0实战

我的大数据之路--spark RDD

我的大数据之路--Flume

我的大数据之路--kafka

Python3+MySQL+Flask+Echarts

我的大数据之路 --pyspark连接mysql数据库

我的大数据之路 --配置HA高可用Hadoop+ zookeeper

我的大数据之路--搭建高可用 Hbase

我的大数据之路 -- flume+kafka+spark streaming+hdfs

CentOS 安装 python3

我的大数据之路 -- storm-1.2.2 高可用安装。

我的大数据之路 -- 猫眼电影再战

我的大数据之路 -- kafka读取本地数据（python3）

我的大数据之路 -- 爬取猫眼电影复联4的影评

我的大数据之路--kafka1.0集成spark streaming2.0--python3

Spark SQL DataFrame入门必备操作

我的大数据之路-- Spark2.0-hadoop2.6.5高可用集群搭建