自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 /usr/lib64/libstdc++.so.6: version `GLIBCXX_3.4.14‘ not found

Redhat 6版本启动时报错。

2023-06-16 10:03:27 520

原创 Flink模拟天猫双十一实时统计系统

一、项目背景在大数据实时计算方向,天猫双11的实时交易额是最具权威性的,当然技术架构也是相当复杂的,该项目由为简单实现,因为天猫双11的数据是多维度多系统,实时粒度更微小的,但是在技术的总体架构上是相近的,主要的组件都是用到大数据实时计算组件Flink。二、准备工作1.安装配置filebeat编写beat-kafka.yml文件指定filebeat的input和output2.安装kafka修改配置文件3.编写shell脚本模拟每秒钟产生一条交易额数据,数据内容为用户id,购买商

2021-07-11 20:19:54 1635 2

原创 start-cluster.sh启动jobmanager失败

报错说没设置JobManager memory configuration failed: Either required fine-grained memory (jobmanager.memory.heap.size), or Total Flink Memory size (Key: ‘jobmanager.memory.flink.size’ , default: null (fallback keys: [])), or Total Process Memory size (Key: ‘jobm

2021-05-14 12:14:30 1501

原创 phoenix删除表格时,明明表格存在却显示没有该表格

查看是存在student表的但是执行删除语句报错Error: ERROR 1012 (42M03): Table undefined. tableName=STUDENT (state=42M03,code=1012)原因很简单…就是student没加双引号…加上再删就好了

2021-05-10 14:50:05 866 2

原创 hive 使⽤BeeLine CLI连接metastore服务 Could not open client transport with JDBC Uri

背景:先开启hadoop集群,再开启metastore,再开启hiveserver2最后开启beeline CLI 连接metastore服务时报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://Master-01:10000: java.net.ConnectException: 拒绝连接 (Connection refused) (state=08S01,code=0)解决办法:1.可以重新输入该语句重启be

2021-04-21 08:43:38 261

原创 hbase shell操作卡顿且命令无法识别 Failed construction RegionServer org.apache.hadoop.hbase.ZookeeperConnection

Hadoop、Zookeeper均启动成功;HBase启动成功后,查看进程都在;启动 hbase shell ,抛出如上异常再次查看HBase相关进程,消失;说明Hbase启动失败,查看后台日志,发现如下关键信息:查看hbase日志发现 报错百度的两种解决办法:1.2.我的都配置过了,意识到是zookeeper未启动成功查看zookeeper的日志发现是开zookeeper的时候三台虚拟机同时开了,也没有进行zkServer.sh status查看是否确实开启导致的错误,先开leader再开

2021-04-13 15:19:15 1145 1

原创 hadoop集群执行mapreduce程序没有报错但无输出文件/ hadoop sqoop将hdfs数据存到mysql时卡死在map 100% reduce 0%

每个map 和reduce任务的物理内存限制有问题修改/hadoop安装路径/etc/hadoop/yarn-site.xml文件 添加 <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>22528</value> </property> <property> <

2020-12-24 17:12:28 2135 1

原创 sqoop从hdfs导入mysql中mapreduce程序卡在INFO mapreduce.Job: map 100% reduce 0%

是mysql中数据表结构的问题我的数据是我的mysql表一开始结构是改成这样就好了

2020-12-24 16:05:30 609 1

原创 Hadoop运行任务sqoop将hdfs文件导入mysql时一直卡在: INFO mapreduce.Job: Running job

查看nodemanager运行日志在hadoop安装路径/logs文件夹下发现node节点 日志卡在 Skipping monitoring container container_1583042746449_0003_01_000005 since CPU usage is not yet available.后来在resourcemanager的主机上在etc/hadoop/yarn-site.xml中添加<property> <name>yarn.

2020-12-24 15:07:01 2090

原创 Hadoop HA——node02没有namenode但是没报错(hadoop运行日志的查看方法)

查看运行日志:到hadoop安装目录下的log文件下ll查看所有文件,用cat+文件名查看该文件因为是namenode无法出现,所有查看关于namenode的log文件如果是别的问题就查看对应的文件发现error说没有name文件到对应目录下创建name文件node-02克隆机下重新启动namenode启动后node-02 jps namenode出现一下就消失了继续查看日志java.io.IOExeption:NameNode is not formattednode-0

2020-12-01 17:47:01 1398 1

原创 python3搜狐新闻时政板块 标题+内容+图片+对应http 实现二级爬取 并存入MongoDB数据库 附源码

目录一、需求分析项目描述1. 实现搜狐新闻爬取2.进行二级爬取3.存入MongoDB4. 导出数据为csv文件二、 实现过程1. 获取url三、爬取新闻名称及其超链接五、爬取文章内容及图片四、连接并存入MongoDB实现代码运行结果五、总代码注意:一、需求分析项目描述1. 实现搜狐新闻爬取在搜狐新闻网页中的时政分类下,爬取新闻标题以及对应的url,如下图2.进行二级爬取进入对应的url爬取相应的新闻内容及图片3.存入MongoDB将所有的标题、对应的url、文章内容、图片存到MongoDB

2020-12-01 17:39:11 1483 1

原创 MapReduce——单词计数案例wordcountdriver报错org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat

报错百度说添加该文件仍然无济于事最终原因是hadoop的版本和winutils版本不对应下载对应版本的winutils把hadoop.dll文件拖到C:/Windows/System32下 替换原来的文件最终wordcountdriver文件

2020-12-01 17:12:00 295

原创 Hadoop——MapReduce实现及API操作

目录一、MapReduce本地运行单词计数案例1. 下载配置maven2. 修改maven库为本地库3. Idea新建maven文件并创建测试类hello5. 编写单词计数项目(1)修改pom.xml文件(2)Wordcountmapper文件(3)Wordcountreducer文件(4)wordcountdriver文件(5)运行成功二、集群运行1. 修改文件存放位置2. 打jar包3. 集群中上传用于计数的文件text.txt4. 上传jar包5. 运行6.运行成功一、MapReduce本地运行单词

2020-12-01 17:05:56 241

原创 Hadoop——zookeeper的实现及API操作

一、 安装zookeeper解压改名二、 配置环境变量使配置起作用关闭防火墙这里一定要关闭所有虚拟机的防火墙说明安装成功三、 修改配置文件配置示例文件编辑该文件 并输入1四、 分发zookeeper相关文件到其他服务器修改02 03 的myid文件分别为2和3在各服务器上使配置生效五、 分别在各服务器上做如下命令关闭六、 Zookeeper的shell操作七、 Java API操作zookeeper1. 添加依赖2

2020-12-01 16:51:38 194

原创 HadoopHA高可用集群搭建详细步骤及部分报错解决

一、创建虚拟机二、 虚拟机安装centos7打开虚拟机创建需要的文件夹三、 克隆虚拟机四、 配置虚拟机ip及主机名1. 查看虚拟机网络配置范围2. 设置虚拟机主机名3. 配置静态ip4. 配置主机名和ip地址的映射5. 查看ip地址配置6. 查看连通内外网情况Node-02ping不通外网 发现是这里写成了DSN1 修改为DNS1后成功7. Xshell连接虚拟机五、 免密登录六、 配置安装各个软件1. 安装lrzsz和wget

2020-11-25 22:31:41 990

原创 zookeeper 链接报错 KeeperErrorCode = NodeExists for /

原因是刚刚运行过一次该语句文件已经创建 百度说删除缓存的version-2文件夹但是也不知道去哪删发现只要在这个语句外套一层if语句即可

2020-11-17 09:26:38 2264

原创 java连接zookeeper服务器出现“KeeperErrorCode = ConnectionLoss for /test”

百度说删除这里的端口号可以运行但只能运行一次不需要删除 只需要在每台虚拟机下输入即可

2020-11-17 09:22:22 701

原创 python——逻辑斯蒂回归实现文本分类(详细步骤)

目录实现思路实验准备一、读取需要分类的文本二、去停用词三、转为词频矩阵/TF-IDF四、生成测试集和训练集五、logistic 回归实现六、模型预测实现思路1.读取需要分类的文本2.转为词袋模型(词频矩阵或tfi-df)3.train_test_split()函数将原始数据按照比例分割为“测试集”和“训练集”4.classification_report函数显示主要分类指标的文本报告5.进行模型预测 即输入一个字符串判断其属于什么类型实验准备1.数据集:本次实验采用共两千条的新闻数据集,其

2020-10-25 13:22:43 3666 4

原创 python——session登录github

目录环境一、session登录github二、登录后页面的爬取环境import requestsfrom bs4 import BeautifulSoupfrom lxml import etree一、session登录github先到该页面下先F12到network下 输入email和password network下会出现session文件只有该文件是post要传入commit、authenticity_token、login、password这几个重要参数(具体为什么其他

2020-10-21 22:51:53 741

原创 Python爬虫——主题爬取搜狐新闻(步骤及代码实现)

一 、实现思路本次爬取搜狐新闻时政类获取url——爬取新闻名称及其超链接——判断与主题契合度——得到最终结果二、获取url变化规律观察发现,搜狐新闻页面属于动态页面但是F12——network——XHR下并没有文件所以不能从这里找从ALL中发现该文件中有想要找的内容发现该文件属于js文件观察四个feed开头的文件的url规律page变化 callback变化无规律 最后的数字每页+8 将callback去掉发现对网页内容无影响所以最终的page获取代码 采用字符串拼接的形式for

2020-10-21 18:56:06 7235 1

原创 python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现

目录准备工作一、webdriver部分二、定位到新页面三、提取酒店信息??这里要注意??四、输出结果五、全部代码准备工作1.pip install selenium2.配置浏览器驱动、配置其环境变量Selenium3.x调用浏览器必须有一个webdriver驱动文件Chrome驱动文件下载chromedriveFirefox驱动文件下载geckodriver具体步骤自行百度3.先确保webdriver可以正常使用一、webdriver部分要利用代码控制浏览器依次点击及修改具体代码:

2020-10-13 20:21:39 2991 5

原创 python爬取微博动态页面id、内容、评论点赞数存入MongoDB 详解

前情提要本次爬取有未解决的问题1.用urlencode合成的url解析出错2.微博爬取个人微博页面不知道如何翻页但是操作和代码可以实现在m.weibo.cn输入关键字后出现的页面的 爬取一、具体操作及注意事项1.获取解析json文件微博有weibo.com和m.weibo.cn两种页面从weibo.com打开要爬的页面 XHR中全是视频分流数据 找不到需要的文件所以要注意换为m.weibo.cn这个网址如果分析某个人的个人微博暂时还未找到url翻页的规律本次通过搜索关键字爬取整

2020-10-11 14:40:42 1883 2

原创 python3——extract_tags()函数对文本数据进行分词,按照tf-idf展示词云并美化

目录一、所需的包二、分词三、词云图最终效果图一、所需的包import jieba.analyse as anaimport wordcloudimport matplotlib.pyplot as pltfrom wordcloud import WordCloudfrom scipy.misc import imread二、分词用 extract_tags()函数,进行分词、提取使用默认的TF-IDF模型对文档进行分析,同时去除停用词参数1.withWeight设置为True时可以显示

2020-09-12 19:32:59 6557 1

原创 Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你 项目实战结论及步骤笔记

123

2020-06-16 18:06:49 1846 1

Agent探针监控windows版64位安装包

Agent探针监控windows版64位安装包

2023-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除