Python
文章平均质量分 59
python语法
Keep-fight
这个作者很懒,什么都没留下…
展开
-
BCC在ubuntu18.04源码安装
BCC在ubuntu18.04源码安装由于官网的安装地址有一些问题,不能直接在apt官方库安装,因为有一些名字上的不同,并且有一些tools和文件没有下载下来,不能够完全使用所以推荐使用源码安装,但是一定要下载bcc-src-with-submodule.tar.gz,src-with-submodule不然会有一些报错,不要git clone目前安装bcc有两种方式,一种是直接使用发行版提供的软件包,Ubuntu里叫bpfcc-tools,CentOS7中的是bcc-tools。另一种方式是源码编译原创 2022-03-03 15:34:27 · 7445 阅读 · 4 评论 -
one-hot
one-hot数据预处理的tricks1、标签one-hot转化对特征进行硬编码不仅可以使用pandas的 factorize函数将文本特征进行编号,也可以使用sklearn 的LabelEncoder函数,两者的效果几乎是一样的。编码为0~n-1(n为种类数)from sklearn.preprocessing import LabelEncoderdata = pd.read_csv(pathUtils.train_path,engine='python')# 必须先fit,然后transfo原创 2021-11-25 11:11:59 · 619 阅读 · 0 评论 -
np.argmax()
numpy.argmax(array, axis) 用于返回一个numpy数组中最大值的索引值。当一组中同时出现几个最大值时,返回第一个最大值的索引值。针对softmax的输出是Ndarray,需要对one-hot类型输出标签进行转换,这个函数直接搞定。在运算时,相当于剥掉一层中括号,返回一个数组,分为一维和多维。一维数组剥掉一层中括号之后就成了一个索引值,是一个数,而n维数组剥掉一层中括号后,会返回一个 n-1 维数组,而剥掉哪一层中括号,取决于axis的取值。一维数组的用法one_dim_arr原创 2021-11-25 10:15:32 · 990 阅读 · 0 评论 -
sklearn and keras 文本向量化
总结一下文本向量化文本分析是机器学习算法的一个主要应用领域。然而,原始数据的这些符号序列不能直接提供给算法进行训练,因为大多数算法期望的是固定大小的数字特征向量,而不是可变长度的原始文本。为了解决这个问题,scikit-learn提供了从文本内容中提取数字特征的常见方法,即:tokenizing: 标记字符串并为每个可能的token提供整数id,例如使用空白和标点作为token分隔符;(分词标记)counting: 统计每个文档中出现的token次数;(统计词频)normalizing: 通过减原创 2021-11-10 20:34:12 · 2227 阅读 · 0 评论 -
Ubuntu时区问题
永久更改Ubuntu的时区Ubuntu 或一些使用 systemd 的其它发行版可以在 Linux 终端中使用 timedatectl 命令来设置时区。你可以使用没有任何参数的 timedatectl 命令来检查当前是日期和时区设置:为在 Linux 中设置时区,你需要知道准确的时区。你必需使用时区的正确的格式 (时区格式是洲/城市)。为获取时区列表,使用 timedatectl 命令的 list-timezones 参数:timedatectl list-timezonestimedatect原创 2021-09-23 21:46:05 · 160 阅读 · 0 评论 -
python super函数
python面向对象编程重写普通方法和特殊的构造函数类继承和普通方法重写类似,但是遇到重写构造函数的时候,必须调用超类的构造函数,否则可能无法正确初始化对象:class Bird: def __init__(self): self.hungry = True def eat(self): if self.hungry; print("Aaaah ...") self.hungry = False else: print("No thanks") class S原创 2021-09-23 18:47:06 · 542 阅读 · 0 评论 -
解决VS Code使用code runner开发Python乱码问题
解决VS Code使用code runner开发Python乱码问题1、是否cmd中python环境变量能够正常使用,不能正常使用有两种情况:看看Path环境变量是否微软重定向到了微软商店没有配置python.exe的环境变量没有配置python的启动路径导致code runner找不到启动路径,并且报错也是乱码很难看懂。2、配置code runner打开配置executorMap的json,还要解决python中文乱码问题,也有两种:在executorMap json文件中设置:"原创 2021-08-25 15:23:43 · 470 阅读 · 0 评论 -
流量处理及分析工具
流量处理及分析工具1、pkt2flow:A simple utility to classify packets into flows.地址:https://github.com/caesar0301/pkt2flow优点:使用C写的分流工具,速度很快,但是仅限于split flow,可以使用多线程提高效率缺点:当文件格式或其他问题出现未报错,不易发现错误。使用方式:Usage: ./pkt2flow [-huvx] [-o outdir] pcapfile Options: -h pr原创 2021-07-19 16:03:55 · 2898 阅读 · 0 评论 -
tldextract模块使用
tldextract模块使用tldextract是一个第三方模块,意思就是Top Level Domain extract,即顶级域名提取使用时 需要安装,命令如下pip install tldextractURL的结构,news.baidu.com 里面的news.baidu.com叫做host,它是注册域名baidu.com的子域名,而com就是顶级域名TLD。返回结构包含三部分:subdomain, domain, suffiximport tldextracttld = tldext转载 2021-06-15 09:17:13 · 594 阅读 · 0 评论