SoRA数据家
码龄4年
求更新 关注
提问 私信
  • 博客:35,990
    35,990
    总访问量
  • 17
    原创
  • 476
    粉丝
  • 84
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2021-04-18

个人简介:数据开发&数据分析探索家️

博客简介:

m0_57376367的博客

查看详细资料
个人成就
  • 获得60次点赞
  • 内容获得23次评论
  • 获得421次收藏
  • 代码片获得4,996次分享
  • 博客总排名191,656名
  • 原力等级
    原力等级
    3
    原力分
    289
    本月获得
    0
创作历程
  • 1篇
    2024年
  • 17篇
    2022年
成就勋章
TA的专栏
  • 爬虫
    4篇
  • Hadoop
    4篇
  • 算法
    2篇
  • Spark
    1篇
  • scala
    1篇
  • bug汇总
    4篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 15

TA参与的活动 1

兴趣领域 设置
  • Python
    python
  • 大数据
    hadoop
创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

79人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

影刀excel操作-多个sheet对应copy到多个sheet中

影刀怎么把多个sheet的表格分别copy到另外一张表的多个对应的sheet中
原创
博文更新于 2024.11.13 ·
871 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

用Python对淘宝用户行为数据的分析

用户行为数据分析
原创
博文更新于 2023.08.28 ·
11596 阅读 ·
33 点赞 ·
15 评论 ·
318 收藏

简易分布式爬虫系统

随着互联网高速发展,海量信息爬取用于不同场景中,分布式爬虫系统广泛应用于大型爬虫项目中,面对海量待抓取网页,采用分布式架构,能在较短时间内完成抓取工作,多台机器同时爬取数据获取效率更高。本项目中的分布式爬虫系统,主要借助pycharm开发工具开发的简易分布式爬虫系统。分布式的实现主要依赖scrapy-redis,主从分布式爬虫。redis数据库用作数据持久化操作与消息队列。数据的存储采用MongoDB数据库。数据的可视化主要由Flask、Echart、WorldCloud等技术。技术栈Python。
原创
博文更新于 2022.12.29 ·
1504 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

Hadoop分布式集群时间同步(ntp)配置

因为服务器会定期和公网时间进行校准。如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。
转载
博文更新于 2022.11.15 ·
1471 阅读 ·
3 点赞 ·
0 评论 ·
12 收藏

Hadoop-HDFS的API案例实操

4.在pom.xml文件中导入依赖(这边不做过多解释,导入时看清楚自己的hadoop版本)1.在本机中配置HADOOP_HOME的环境变量。3.创建Maven工程。2.配置PATH路径。
原创
博文更新于 2022.11.15 ·
996 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

[算法]寻找两个正序数组的中位数

由于A[k/2−1] 和 B[k/2−1] 的前面分别有 A[0..k/2−2] 和 B[0..k/2−2],即 k/2−1 个元素,对于 A[k/2−1] 和 B[k/2−1] 中的较小值,最多只会有 (k/2−1)+(k/2−1)≤k−2 个元素比它小,那么它就不能是第 k 小的数了。3. 根据中位数的定义,当 m+n 是奇数时,中位数是两个有序数组中的第 (m+n)/2 个元素,当 m+n 是偶数时,中位数是两个有序数组中的第 (m+n)/2 个元素和第 (m+n)/2+1 个元素的平均值。
原创
博文更新于 2022.11.03 ·
364 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark的WordCount操作过程中出现Exception in thread “main“ java.lang.ArrayIndexOutOfBoundsException: 10582问题

此文章一位评论的博友给出的解释是“因为jdk升级到了1.8 但是原本的paranamer不向上兼容了”添加以下代码到pom.xml文件中。paranamer版本的问题,
原创
博文更新于 2022.10.17 ·
637 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。5.count:命令用于统计指定目录下的目录数、文件数、字节数。4.-df:统计文件系统的容量、可用空间和已用空间信息。- hdfs dfs 只能操作HDFS文件系统。-copyToLocal:从HDFS拷贝到本地。:追加一个文件到已经存在的文件末尾。目录中移动文件(注意区别-get)的另一个路径(注意区别-put)
原创
博文更新于 2022.10.11 ·
4586 阅读 ·
4 点赞 ·
0 评论 ·
32 收藏

启动Hadoop时一直提示输入密码的问题(SSH配置)

启动Hadoop时一直提示输入密码的问题,经常弹出要要我输入password。
原创
博文更新于 2022.10.10 ·
3471 阅读 ·
2 点赞 ·
2 评论 ·
14 收藏

【Scala】集合操作大全

SetMap它们中有多种不同的实现:对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包:不可变集合:scala..可变集合: scala.collection.StringPerdefArrayStringBufferval。
原创
博文更新于 2022.10.09 ·
1297 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

保姆级基础爬虫架构(xpath)

本文将会介绍两种常用的爬虫框架,为想要学习爬虫的小伙伴提供一点方向。
原创
博文更新于 2022.09.25 ·
388 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

【0基础】教你使用Xpath方式提取网页信息

xpath是一套用于解析XML/HTML的语法,它使用路径表达式来选取XML/HTML中的节点或节点集。Xpath常用语法和实例如下表所示xpath使用的第三方库为lxml#1.导入etree类#2.使用html生成etree类对象#3.提取页面目标元素xpath()XPATH语法如下所示路径表达式:谓语什么是谓语?谓语用来查找某个特定节点或者包含某个指定节点,位于被镶嵌在方括号中。
原创
博文更新于 2022.09.25 ·
2561 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

Scrapy基础入门学习

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
原创
博文更新于 2022.09.23 ·
551 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hadoop2.x配置历史服务器时遇到的问题

配置步骤如下:(具体流程来自尚硅谷教案)在该文件里面增加如下配置。
原创
博文更新于 2022.08.05 ·
708 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

ZooKeeper集群启动停止脚本步骤以及异常处理

ZooKeeper集群启动停止脚本步骤以及异常处理
原创
博文更新于 2022.08.02 ·
662 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Zookeeper脚本分发遇到的问题(xsync zookeeper-3.5.7)

Zookeeper脚本分发遇到的问题(xsync zookeeper-3.5.7)
原创
博文更新于 2022.08.01 ·
927 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

用python做数据分析时使用pd.to_datetime函数时间戳从1970年开始的情况

python数据分析常见问题
原创
博文更新于 2022.07.09 ·
1960 阅读 ·
2 点赞 ·
2 评论 ·
7 收藏

排序算法(python版)代码详解

6.快速排序目录1.冒泡排序2.选择排序3.插入排序4.希尔排序5.归并排序
原创
博文更新于 2022.02.08 ·
1151 阅读 ·
2 点赞 ·
2 评论 ·
7 收藏
加载更多