一个想当作家的程序员-CSDN博客

原创 python pandas 基本操作

【代码】python pandas 基本操作。

2024-10-31 10:58:16 268 1

原创 flink-java基本demo

【代码】flink-java基本demo。

2023-04-12 15:02:19 399

get_module_res = lambda *res: os.path.normpath(os.path.join(os.getcwd(), os.path.dirname(__file__), *res))最近需要将python代码放在集群上，在加载如dict.txt的本地文件时存在问题想要文件和python文件一起打包主要在集群上运行时不能够识别到包里的路径通过以上的代码可以成功识别到，灵感来自于jieba分词第三方包中对于词典文件的加载...

2022-02-14 16:11:01 406

转载 pyspark设置Hadoop参数

sc._jsc.hadoopConfiguration().set('my.mapreduce.setting', 'someVal')注意一个细节也不要放过链接来源：https://www.it1352.com/1934092.html

2021-08-19 19:44:07 959

原创 Pyspark UDF的几种方式

1.注册可在sql中运行from pyspark.sql.types import *def pow1(m,n): return float(m)**float(n)udf = spark.udfudf.register('pow1',pow1,returnType=DoubleType())df = spark.range(0,10,2,3)df.createOrReplaceTempView('A')print spark.sql('select pow1(id,2) fr.

2021-08-06 19:02:59 2499

原创 hive sql 函数合并行未完待续

1 concatconcat(year,month,day)202107012 concat_wsconcat_ws('-',year,month,day)2021-07-013 collect_set合并同一组下某个字段内容，去重4 collect_list合并同一组下某个字段内容，不去重https://www.cnblogs.com/cc11001100/p/9043946.html...

2021-08-06 15:30:25 416

原创 python-TypeError: list indices must be integers, not tuple Solution

问题来源：自定义list[ [list] [list] ]报错原因：list 数组中数组之间少个逗号改成：list[ [list] ,[list] ]https://careerkarma.com/blog/python-typeerror-list-indices-must-be-integers-not-tuple/

2021-04-29 15:14:17 394

原创 StructType can not accept object u‘372063‘ in type ＜type ‘unicode‘＞ Can not infer schema for type: ＜

If you find the follwing errors:如果你发现了如下的错误Can not infer schema for type: <type 'unicode'>StructType can not accept object u'372063' in type <type 'unicode'>And you try all kinds ofStructType or scheam, the errors arealways here并...

2021-04-25 19:52:00 678

原创 hive sql 中时间函数（未完待续）

Part 1 时间戳相关1.获取当前时间戳--例如：select unix_timestamp() --15658583892.时间转换成时间戳--输入的时间戳格式必须为'yyyy-MM-dd HH:mm:ss'，并且为String类型select unix_timestamp('2019-08-15 16:40:00') --15658584003.时间戳转换成时间--例如：select from_unixtime(1565858389,'yyyy-MM-dd.

2021-04-23 19:52:51 736

转载 hadoop 文件操作（未完待续）

1. 查看文件大小hadoop fs -du -h /user/filename-h 没有则按照byte显示，否则按照G2. 查看文件行数hadoop fs -cat /文件* | wc -lhadoop fs -cat /datastream/portal/jinritoutiao/video/2018-08-11/portal_jinritoutiao_video_20180811*|wc -l 查看该目录下所有文件名包含portal_jinritoutiao_video

2021-03-31 14:25:57 1142

转载 Hive实现数据抽样的三种方法

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样（SAMPLING）的功能，能够根据一定的规则进行数据抽样，目前支持数据块抽样，分桶抽样和随机抽样，具体如下所示：数据块抽样（tablesample()函数）1） tablesample(n percent) 根据hive表数据的大小按比例抽取数据，并保存到新的hive表中。如：抽取原hive表中10%的数据（注意：测试过程中

2021-03-31 10:25:44 475

原创几种距离（用于向量距离计算、相似度计算等）

1.欧几里得距离M维空间中两点的直线距离，也就是两点连线后的直线距离。2.曼哈顿距离：曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离，即d(i,j)=|xi-xj|+|yi-yj|。对于一个具有正南正北、正东正西方向规则布局的城镇街道，从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离，因此，曼哈顿距离又称为出租车距离3.切比雪夫距离二个点之间的距离定义为其各座标数值差绝对值的最大值。以(x1,y1)和(x2,y2)二点为例，其切比雪夫距离为max(|

2021-01-09 16:07:51 1100

原创 spark 大数据相关问题积累未完待续

大量数据保存不成功问题Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):https://blog.csdn.net/weixin_43815790/article/details/89003870

2021-01-07 15:01:19 190

原创数据挖掘竞赛网址 2020年12月份版

KaggleDataFountainDC-lab

2020-12-28 10:31:47 347

原创 Pyspark基础操作( rdd dataframe 创建读取利用）

Part1 Pyspark1.读取数据#enableHiveSupprot() 支持hive操作#getOrCreate() 如果没有就创建，有就不用了spark = SparkSession.builder.appName("appName").enableHiveSupport().getOrCreate()spark.sparkContext.pythonExec = spark.conf.get('spark.yarn.appMasterEnv.PYSPARK_PYTHON')pa

2020-12-06 22:58:33 2955 2

原创数据分析互联网常用缩写大全（未完待续）

数据分析指标英文名含义 PV(Page View，浏览量) 一个统计周期内，浏览页面的数之和 UV(Unique Visitor，访客数）一个统计周期内，访问网站的人数之和 CPO（Cost per Order单笔订单成本）单笔订单成本＝总的市场营销开支／总订货数互联网行业常用缩写英文缩写 ...

2020-11-02 19:37:55 3506 1

原创数据挖掘与机器学习————降维之主成分分析法（PCA,Principal components analysis ）

1.概述PCA(Principal components analysis)是一种降维方法、一种线性变换。这个变换主要是利用正交变换（基变换），将数据变换到一个新的坐标系中，使得原本难以分割的数据变得好分割，即线性无关。2.数学基础内积（又名点积、数量积、标量积）、方差、协方差、实对称矩阵、对角化、正交矩阵、正交变换、特征值以及特征向量的求法。内积：...

2020-09-21 10:00:05 995

原创有效的括号（栈）Java

给定一个只包括 '('，')'，'{'，'}'，'['，']'的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: "()"输出: true示例2:输入: "()[]{}"输出: true示例3:输入: "(]"输出: false示例4:输入: "([)]"输出: false示例5:输入: "{[]}"输出: true来源：力扣（Le...

2020-08-26 10:45:17 261

原创 MySQL----服务启动问题解决集合

错误1MySQL 8.0登录Access denied for user 'root'@'localhost' (using password: YES)的问题https://blog.csdn.net/cartoon_/article/details/80344637# 8.0之后的版本修改root用户密码ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '你的密码';#退出my...

2020-08-19 19:26:48 290

转载 Linux快速基础--vim

三种模式命令模式、编辑模式、末行模式命令模式：在该模式下，不能对文件直接编辑。可以输入快捷键（命令）进行一些操作（删除行、复制行、移动光标、粘贴等）；打开文件之后默认进入该模式编辑模式：在该模式下可以对文件的内容进行编辑末行模式：可以在末行输入命令来对文件进行操作（搜索、替换、保存、退出、撤销、高亮等）vim 打开文件的方式vim 文件路径作用：打开指定文件（不存在则创建） vim +数字文件路径作用：打开指定文件，并将光标移动到指定行 vim +/关键词文件路径

2020-08-18 12:20:17 232

原创 Python-改进SEIR模型

原先写了篇论文，现在把代码分享给大家。代码import scipy.integrate as spiimport numpy as npimport matplotlib.pyplot as pltimport mathimport xlrd# I_0为感染者的初始人数 524*1.5I_0 = 198# E_0为潜伏者的初始人数E_0 = 630# R_0为治愈者的初始人数R_0 = 2# S_0为易感者的初始人数# S_0 = N - I_0 - E_0

2020-08-18 08:50:20 4938 8

原创 Java快速基础---final/static 关键字

final 修饰对象效果要求类不能被继承变量值不会变必须附初值方法不可被子类重新定义（不可被覆盖、重载），因此被称为最终方法 Static 修饰对象效果要求...

2020-08-13 08:33:12 203

原创 Python数据预处理----仿Label原理字符类型数据映射成数值数据

看来题主还太年轻，不知道Python已有的库中有对于字符串类型数据的转换，因此手动写了一个。但是还是要提前说一下，相关方法都有哪些，后来以便做一次总结。对于某些数据属性是字符串代表的类型，在分类、聚类、回归时，为了方便处理，会将其对应转化成数值型。相关转换方法有: label encoding/one-hot encoding /target encoding等自定义仿label代码如下：import pandas as pd#将所获得的字典存入txt文件中def...

2020-08-05 22:40:32 1401

原创 Python--TypeError: ‘＜‘ not supported between instances of ‘str‘ and ‘float‘

Label encodeing遇到的错误错误图示：代码没有错误，主要是数据处理错误。将字符类型利用label encoding映射成数字，但是数据原本有缺失。题主将其全部替换成了0，但是不能够同时处理字符串和数值的类型。因此将原本的0，全部又替换成了字符“a”，得到了解决。...

2020-08-05 22:32:16 8605 4

原创找出数组游戏的赢家Java

1.题目描述https://leetcode-cn.com/contest/weekly-contest-200/problems/find-the-winner-of-an-array-game/给你一个由不同整数组成的整数数组arr和一个整数k。每回合游戏都在数组的前两个元素（即arr[0]和arr[1]）之间进行。比较arr[0]与arr[1]的大小，较大的整数将会取得这一回合的胜利并保留在位置0，较小的整数移至数组的末尾。当一个整数赢得k个连续回合时，...

2020-08-02 16:05:24 324

转载 Python快速基础--空值无穷值处理

https://blog.csdn.net/yi976263092/article/details/87878112问题：在训练模型 fit(x_train,y_train) 时遇到报错ValueError:Input contains NaN, infinity or a value too large for dtype('float64')解决方法：1、检查数据中是否有缺失值，并做缺失值处理# 读取数据train = pd.read_csv('./data/tra...

2020-07-23 18:28:08 3241

原创数据结构与算法-------五花八门的树以及对应计算

二叉树1.二叉树第i层上最多有个结点（i>=1）2.深度为k的二叉树最多有3.对于任何一棵二叉树T，如果其终端结点树为,度为2的结点数为，则=+14.n（n>1）个结点的二叉树，有如下数量的排列组合：满二叉树深度为k且含有个结点的二叉树完全二叉树特点：叶子结点只可能在层次最大的两层上出现；对任意结点，若其右分支下的子孙的最大层次为1，则其左分支下的子孙的最大层次为l或l+1`。1.具有n个结点的完全二叉树的深度为哈弗曼树只有度为0和度为2的节...

2020-07-21 21:38:00 257

原创 Python快速基础2-求解线性方程与非线性方程

最近有别个专业的同学来找我帮助求解一个方程组，基本求解方程公式如下：基本数据如下：t CI-CO 1 -171603.51 2 -171603.51 3 161584.14 4 209162.75 5 232952.05 6 232952.05 7 232952.05 8 242127.29 9 242127.29 10 242127.29 11 242127....

2020-07-18 12:10:25 723

原创数据挖掘与机器学习---推荐方法概述1.0

非个性化推荐：基于流行度的推荐，即什么歌流行推荐什么、什么新闻热点推荐什么、什么电视剧热门推荐什么。个性化推荐：基于用户的历史特征或者其他特征，一定程度上符合用户特点的。在这里的用户特点可以指用户年龄、性别、职业，也可以指的是用户经常浏览的，亦或者其他。混合推荐：综合个性化推荐和非个性化推荐。1.什么是协同过滤的推荐？题主这里建议可以从字面上来理解，借助相同的因素找到其他物品，并且将相同的过滤掉，推荐给用户。传统意义上，协同过滤的推荐方法，包括了基于用户的协同过滤和基于物品...

2020-07-17 00:56:56 386

原创学术论文--论文查看的网站/快速查看中英文文献/不怕难

1.查看学术论文的一般有哪些网站？常见的有知网、维普网、爱学术等。知网有镜像网站iData，可免费下载一定文章。知网可校外登录，挂学校VPN，点校外访问选择相应学校，登录即可。2.学术论文太难太水？有两种情况，一个是太简单觉得太水，另一种就太难花里胡哨看不懂。太简单的可以作为知识概括性文章看，即当做CSDN里发的知识概述的博客一样，对比看来，至少是发了论文，总结稍微可能全一些。太难的，可能是把简单的说复杂了，不必纠结看不懂，看能看懂的。一般好的学术论文也是得让你看得懂才行，摘要好

2020-07-16 00:30:15 1107

原创数据挖掘与机器学习——离群点检测之孤立森林（isolate forest）

1.简单解释利用二叉树和随机值，将数据分在左右。正常的自是子孙满堂，异常的显然孤家寡人。2.概念基础二叉搜索树、森林、随机森林、调和级数二叉搜索树（二叉查找树/二叉排序树，Binary Search Tree，BST）根节点的值大于其左子树中任意一个节点的值，小于其右节点中任意一节点的值。调和级数举例：3.理论定义下面的英文翻译综合了已有的关于孤立森林的中文解释和对英文原本的基本翻译，而不是对于英文的直接汉化。在完成基本英文翻译过程中，对于句子...

2020-07-14 01:58:42 3307 6

原创二叉树搜索树中的搜索java

题目描述给定二叉搜索树（BST）的根节点和一个值。你需要在BST中找到节点值等于给定值的节点。返回以该节点为根的子树。如果节点不存在，则返回 NULL。例如，给定二叉搜索树: 4 / \ 2 7 / \ 1 3和值: 2你应该返回如下子树: 2 / \ 1 3在上述示例中，如果要找的值是 5，但因为没有节点值为 5，我们应该返回 NULL。来源：力扣（Lee...

2020-07-13 22:17:40 348

原创无重复字符的最长子串--JAVA暴力求解

给定一个字符串，请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b"，所以其长度为 1。示例 3:输入: "pwwkew"输出: 3解释: 因为无重复字符的最长子串是"wke"，所以其长度为 3。请注意，你的答案必须是子串的长度，"pwke"是一个子序列，不是子串...

2020-07-11 21:56:11 760 2

原创两数之和（Java链表实现）

题目描述：给出两个非空的链表用来表示两个非负的整数。其中它们各自的位数是按照逆序的方式存储的，并且它们的每个节点只能存储一位数字。如果，我们将这两个数相加起来，则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外，这两个数都不会以 0开头。来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/add-two-numbers输入：(2 -> 4 -> 3) + (5 -> 6 -> 4)输出：7...

2020-07-10 17:49:13 386

原创数据挖掘与机器学习——线性回归（上）

题主最近开始整理数据挖掘的相关算法，其中涉及机器学习的相关内容。总得来说，这二者是相互交融的。题主写本文的目的，一方面根据视频讲解的内容进行概述，另外一方面结合相关文献加深理解，同时希望各位大佬能够多多指正。1.理论基础概率与统计基础：正态分布（又名高斯分布、常态分布）、中心极限定理、最大似然估计、最小二乘法2.核心概念与理解在这里，题主并不过多赘述相关公式及其推导定理，而是着重讲述概念理解和意义，以此方便应用。但是其中理论推导其实还是需要好好理解。线性回归：存在多个点，可回归到一

2020-07-09 01:30:57 416

原创学术论文--写作总结之确定问题

题主虽说不是大牛，勉强算是说发过论文，还希望各位大佬能够提出建议！现来总结我所认为的问题确定.如何确定问题？整个文章的解决思路和算法设计都围绕着这个问题展开，只有确定了问题才能够方便下文的展开。就题主所遇到的来说，问题可能不是一成不变的，它也可能随着算法的改变而改变。换句话说，在发现算法并不符合问题解决时，亦可以适当改变问题定义，使之符合，从而使得前面的工作不白费。这个问题其实可能分很多种，这跟写学术论文的创新方向有关。一方面可以从应用领域方面创新，即一个已有的方法在其他领域方面的应用

2020-07-04 20:10:41 586

原创 JavaEE快速基础1-oracle链接文件配置说明

1.在src文件下创建 db.properties文件2.编辑文件内容如下：driverClassName=oracle.jdbc.driver.OracleDriverurl=jdbc:oracle:thin:@127.0.0.1:1521\:XEusername=scottpassword=tigerjdbc:oracle:thin:---------默认 Localhost ---------本地ip 1521 ---------...

2020-07-02 23:04:43 209

C++笔记-适合有c语言基础-课程基础资源

概率回溯-八皇后问题.cpp

空空如也