决策树(部分) 信息熵与概率是一个事物的一体两面,概率指“事件多大可能发生”,表示事件发生的“确定性”,而信息熵指“事件有几种可能性”表示时间发生的“不确定性”。反映的是事情复杂、混乱的程度。统计意义上来说这是一种加权平均,表示整体的选择个数。信息熵还可以用来进行信息编码,可用于计算信息编码的平均长度由于日常所得的数据中既有有效数据又含噪音,选择特征的方法包括信息增益(Information Gain)、基尼指数(Gini Index)和增益率(Gain Ratio)等。
apply、map、applymap区别 这几个方法常用于对于 dataframe 逐行、逐列、逐元素的操作。其中,“拆分-应用-合并”的方法,讲一个函数作用于dataframe的每个行或列,可以几乎代替 agg() 和 transform() 方法语法常用参数:func:函数,可以是内置函数、lambda匿名函数、或自定义函数axis:0表示按索引,作用于列,1表示按列,作用于每一行(上方用法相当于调用 transform(),下方用法相当于调用 agg() )
使用wordcloud与jieba库制作词云图 里面有一个 extract_tags() 方法,可以用于提取关键字,返回一个可以迭代的列表,方法的具体介绍可以再看看这个文章。由于一开始一直报字体文件格式错误(明明是 .ttf 没什么问题),因此在晚上查到需要把pillow库更新一下, 解决了。词云图,以视觉效果提现关键词,可以过滤文本信息,掌握关键信息,通过一个例子理解它的大概用法。有许多如“我”、“是”、“的”等无效信息,因此需要进一步处理。txt 的赋值可以自己随便敲单词,文本即可。直接上例子看区别,根据个人需求选择。
Linux补基础之:系统和进程 计算机中,一个正在执行的程序或命令,叫“进程”(process),有自己的内存空间,需要占用相应资源,计算机会给每个进程一个编码,PID。启动之后一直存在、常驻内存的进程,如开启网络服务进程,一般被称作“服务”(service)。Linux 中有 “守护进程” 的概念,其实质就是维持系统正常运行的系统服务,会一直启动。
Shell中的函数 shell中函数、脚本、命令意思有些相似,都是指为了实现某个功能的一段代码的集合,可以包装起来完成某些功能。shell会提供一些既有的可以直接执行调用的脚本,系统函数也分为内置外置,比如外置的脚本直接放在 /bin 目录下,就可以直接执行了如date函数,显示时间及时间戳2024年 10月 22日 星期二 16:42:05 CST1729586538date后面一定要加一个空格在这里,相当于调用了date函数,再使用+%s的参数,然后用$()包起来所有的命令都能在脚本里作为系统函数调用。
Shell中的流程控制(重点) 但是如果用引号将变量引起来,$*会被视为一个元素,将所有参数当成一个整体,而$@会依次将参数输出。报错:[ condition ]两端一定要有空格,否则报错!循环打印出了几个值(无传入参数汇报错,期待操作参数)可以使用 -a 表示 and 逻辑,用-o表示或逻辑。(这里在未给sum赋初值时报错了,上面却不报错?相当于“为真时执行,不为真时跳过”{a..b}也是用于遍历的。
Shell学习——shell中的变量 号两边不能有空格,有的话要用引号引起来my varexit使用export可以将局部变量升级为全局变量my var但是,在子shell里面的变量修改不会改变外层父shell的值,如your varexitmy var。
初识shell,做一个Shell脚本输出字符 开发实践中如部分数据库进行定时备份,有可能会要写shell脚本Linux原理图:Shell是一个命令行解释器,Linux内核直接操作计算机硬件,用户使用的则是外层应用程序(如文本编辑器浏览器数据库及图形化操作界面),shell作为中间的解释层连接外层应用程序和Linux内核,可以将外层命令解释称计算机可以执行的命令。
Linux基本命令总结(佛系更) 实际生活中企业在进行大数据开发或分析时可能会存在多台主机,通过使用Linux系统进行连接,随后进行分布式的存储和计算,如 hive 就是一种结构化数据库,使用的类似SQL语法--Hive SQL,因此对于Linux系统应该要有一定的了解,本文总结一下Linux系统中的常用命令。
总结SQL相对常用的几个字符函数 这个 rowid 是在 oracle 中记录每一行数据在插入数据库时分配的物理地址(是唯一的字符串)oracle 中可连接多个字符串,SqlServer 里可以用 + 进行连接。从 start 开始,截取长度为 lenth 的字符,其中空格长度为1。此外,对字符串出现 % 或 _ 也可以用反斜杠 \ 对其忽略。从源 str 两边、左边、右边开始截取目标 str,对 oracle 中自带的 EMP 表进行字符处理。,不过参数一样,但是不能缺少长度,也就不会默认到末尾。除此之外,Oracle 也可用。
机器学习——几个线性模型的简介 线性说白了就是初中的一次函数的一种应用,根据不同的(x,y)拟合出一条直线以预测,从而解决各种分类或回归问题,假设有 n 个属性(自变量),xi 为 x 在第 i 个属性上的取值,则其形式为: 模型有系数 、 、...以及误差项 ,可写为: 线性回归拟合有一些重要的假设,包括: 拿一元线性回归举例(一个自变量一个因变量): 机器学习过程中我们的目标是最小化残差平方和来估计模型系数的值,均方误差对应了常用的“欧氏距离”(Euclidean dist