![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
AG9GgG
这个作者很懒,什么都没留下…
展开
-
特征工程
全文摘抄:https://www.cnblogs.com/jasonfreak/p/5448385.html一、数据预处理通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考...原创 2019-09-21 22:57:52 · 278 阅读 · 0 评论 -
字符串模糊匹配工具:FuzzyWuzzy
简介FuzzyWuzzy是github上一个高星项目,根据Edit Distance计算两个序列之间的距离。Edit Distance是指两个字符串之间,由一个转换为另一个所需的最少编辑次数。编辑操作包括替换、插入、删除,一般认为两个字符串的编辑距离越小,相似度越大。(注意,Edit Distance越小相似度越大,但是FuzzyWuzzy返回的是相似度的数值,所以返回值越大,字符串越相似。安...原创 2019-09-16 23:58:59 · 861 阅读 · 0 评论 -
Pandas的22种核心操作
基本数据集操作读取CSV格式的数据集pd.DataFrame.from_csv("csv_file")pd.read_csv("csv_file")读取excel数据集pd.read_excel("excel_file")将DataFrame直接写入CSV文件df.to_csv("data.csv", sep=",", index=False)基本的数据集特征信...原创 2019-09-11 16:59:53 · 337 阅读 · 0 评论 -
决策树
这是一篇《机器学习实战:基于Scikit-learn和TensorFlow》的学习笔记,如果有时间的话会考虑连课后题一起做一下。决策树的训练与可视化训练from sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifieriris = load_iris()X = iris.data[...原创 2019-09-11 15:46:19 · 215 阅读 · 0 评论 -
分析恶意流量的发现——TCP协议下的DNS服务
一直以为DNS只走UDP,今天分析流量的时候发现了好多TCP连接,目标是53端口的,于是上网查了一下。那么,我发现的这个TCP53,是不是恶意流量呢?根据流量中的可见域名,将域名作为关键词google了一下,发现了它是恶意域名的实锤:https://www.malware-traffic-analysis.net/2014/07/02/index.htmlTCP是为了隐蔽通信。这是一个2...原创 2019-09-05 18:21:10 · 615 阅读 · 0 评论 -
CDN(Content Delivery Network,内容分发网络)与Fast Flux
一、CDN1、什么是CDNCDN 是构建在网络之上的内容分发网络CDN是空间换时间的策略CDN使用户就近获取所需内容,降低网络拥塞,提高用户访问相应速度和命中率CDN依靠部署在各地的边缘服务器,包括中心平台的负载均衡、内容分发、调度等功能模块基本思路:尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现...原创 2019-09-05 18:07:15 · 604 阅读 · 0 评论 -
威胁猎杀(Thread Hunting)
什么是威胁猎杀是一种集中和迭代的方法,用来搜索、识别和理解进入网络内部的攻击者。利用内外威胁情报资源,主动识破对手的意图、能力和攻击机会,并将对手的优势扭转为防御方的优势,是一个持续改善的迭代过程。作为一个威胁,攻击者含有三个要素:意图、能力和机会。威胁猎杀将搜索重点放在具有着三个特征的对象身上,收集证据、部署对策。最近对威胁猎杀的强调不在于重塑多年来防护者所做的努力,而是关于分析人员有...原创 2019-08-28 18:03:11 · 1423 阅读 · 0 评论 -
根域名服务器
全球13组根域名服务器以英文字母A到M依序命名,网域名称格式为“字母.root-servers.org”。字母IPv4地址IPv6地址运作单位A198.41.0.42001:503:ba3e::2:30VeriSignB192.228.79.2012001:500:84::b南加州大学信息学研究所C192.33.4.122001:500:2::...转载 2019-08-14 11:38:01 · 429 阅读 · 0 评论 -
Beautiful soup 入门
bs4的基本元素Tag标签Name名字Attributes属性NavigableString字符串Comment注释字符串遍历方法1.下行遍历.contents.children.descendants2.上行遍历.parent.parents3.平行遍历.next_sibling.previous_sibling...原创 2019-08-07 15:22:30 · 145 阅读 · 0 评论 -
java Map学习
Map可以通过键来访问值当访问的值不存在的时候,方法就会抛出一个NoSuchElementException异常当对象的类型和Map里元素类型不兼容的时候,就会抛出一个 ClassCastException异常当在不允许使用Null对象的Map中使用Null对象,会抛出一个NullPointerException 异常当尝试修改一个只读的Map时,会抛出一个UnsupportedOpe...原创 2019-07-18 17:34:11 · 174 阅读 · 0 评论 -
Tensorflow实现LSTM文本分类
最近需要写一个神经网络模型来做分类。作为此前没有实战过深度学习,只写过SVM之类的,学习过一些理论知识的新手,为了快速上手,第一想法就是找一个简单的demo跑通,对整个流程和结构有一个初步体验。于是在网上找了一个Tensorflow实战系列:手把手教你使用LSTM进行文本分类但是教程存在一个问题,是没有把数据集分成训练和预测两个部分,导致学习过程中学习数据和预测数据产生混淆,让我有些迷茫,然后...原创 2019-03-26 15:14:19 · 3172 阅读 · 0 评论 -
机器学习中数据不平衡问题
是对博文在分类器中如何处理训练集中不平衡问题的一个简要笔记。类别不均衡问题是常见问题大部分分类任务中,各类别下的数据个数基本上不可能完全相等,但是一点点差异是不会产生任何影响与问题的。在现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的。如,在欺诈交易识别中,属于欺诈交易的应该是很少部分,即绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。这就是一个正常的类别不均衡问...转载 2019-02-28 15:19:50 · 381 阅读 · 0 评论 -
scikit-learn out-of-core classification
最近一直被训练过程中的Memory Error困扰,查了资料如何避免发生MemoryError,文章解释了python的dictionary分配内存的机制带来的巨大问题,并给出了优化的思路。但是并没有代码示例。显然理论上明白该怎么做并不能很快速的指引我解决眼下的问题,只是让我明白了方法,具体的操作还在构思,于是继续查资料。无意中发现了这个out-of-core分类器,该思路符合文章里的小批量解决...翻译 2019-02-26 12:25:46 · 1040 阅读 · 0 评论 -
使用scikit-learn时如何避免发生内存溢出
原文(英文好的朋友直接看这个,我英语不咋样,翻译的很糟糕):https://medium.com/@AgenceSkoli/how-to-avoid-memory-overloads-using-scikit-learn-f5eb911ae66c为什么会占用如此多的内存?当我们使用countvectorizer对语料进行矢量化处理后,得到一个词汇表,这个词汇表由一个字典存储。词汇表中的术语可能...翻译 2019-02-26 11:09:50 · 1604 阅读 · 0 评论 -
python求两个字符串的相对补
求两个字符串的相对补,即求两个字符串的不同之处。import difflibstr1 = "test 123 same and diff and diff2"str2 = "test 123 same and same and same2"d = difflib.Differ()diff = d.compare(str1.splitlines(), str2.splitlines()...原创 2019-02-21 15:43:09 · 814 阅读 · 0 评论 -
linux screen常用指令
语法screen [-AmRvx -ls -wipe][-d <作业名称>][-h <行数>][-r <作业名称>][-s ][-S <作业名称>]-A 将所有的视窗都调整为目前终端机的大小。-d <作业名称> 将指定的screen作业离线。-h <行数> 指定视窗的缓冲区行数。-m 即使目前已在作业中的sc...转载 2019-02-20 17:34:19 · 159 阅读 · 0 评论 -
sklearn存储机器学习模型
需求有时候需要训练的是一个能够在多处被复用的模型,而不是一次简单的从训练到使用的实验,这时就需要将训练好的模型存储下来。方法有两种方法可以实现模型的存储:1)Pickle;2)joblibpicklepickle是python中一种标准的序列化对象方法,可以使用pickle操作来序列化机器学习算法,保存这种序列化的格式奥一个文件中。可以导入这个文件反序列化模型,得以再次使用模型。下例...转载 2019-02-19 15:43:34 · 354 阅读 · 0 评论 -
中文分词十年又回顾2007-2017
《中文分词十年有回顾》是上海交通大学赵海副教授整理的中文分词过去十年进展。一、基本结论中文分词的统计机器学习方法优于传统的规则方法,尤其是在未登录词(out-of-vocabulary words, OOV)即训练集上未出现的词的识别上,具有无可比拟的优势。其一是长期以来,基于规则的方法获得了不错的效果,降低了研发先进机器学习技术的迫切性。其二是统计学习方法计算量较大,当时的计算机很难高效...转载 2019-02-18 12:23:41 · 701 阅读 · 0 评论 -
Python lambda
缘由做的实验需要复写sklearn的CountVectorizer中的analyzer,于是去查看官方文档,在示例中发现:>>> import re>>> def to_british(tokens):... for t in tokens:... t = re.sub(r"(...)our$", r"\1or", t)......原创 2019-02-18 10:08:24 · 189 阅读 · 0 评论 -
pandas学习笔记
一、是什么Pandas像是Python中的Excel:它的基本数据结构是表格(在pandas中叫“DataFrame”),可以对数据进行各种操作和变换。它还能做很多其他的事。二、常用函数读取数据import pandas as pddata = pd.read_csv('files.csv')# seq显示地声明分隔符,encodig显示地声明编码方式,n_rows声明读取前n行,...原创 2019-02-13 15:38:41 · 147 阅读 · 0 评论 -
文本型数据特征化(特征提取)
如果样本本身就是数字型的,那么样本本身就可以作为特征用于训练我们的模型,那么如果样本本身是文字型样本,如做文本分析等机器学习工作时,该如何提取特征?1. 词集模型单词构成的集合,集合中每个元素都只有一个。2. 词袋模型统计文本中出现的单词,与其出现次数。使用sklearn实现的词袋模型示例如下:3. TF-IDF模型(term frequency–inverse document f...原创 2019-01-25 15:39:03 · 2747 阅读 · 0 评论 -
密码学期末复习
密码学期末复习直接导入的本地md,图片加载不出来,pdf下载:第一讲:绪论密码的含义及其主要功能含义:密码学是一个非常庞大而复杂的信息处理系统,涉及信息的机密性、完整性、认证性、不可否认性等许多方面,属于信息安全范畴。主要功能:机密性:是指保证信息不被泄露给非授权的用户或实体,确保存储的信息和传输的信息仅能被授权的各方得到,而非授权用户及时得到信息也无法知晓信息内容,不能使用。...原创 2019-01-25 13:50:48 · 5688 阅读 · 3 评论 -
python字符串的isX方法(islower,isupper,isalpha,isalnum,iadecimal,isspace,istitle)
islower() : 判断字符串是否全小写isupper():判断字符串是否全大写islower()和isupper()示例:isalpha:判断字符串是否只包含字母isalpha()示例:isalnum:判断字符串是否只包含字母和数字isalnum()示例:isdecimal:判断字符串是否只包含数字isdecimal()示例:isspace:判断字...原创 2019-01-23 15:25:37 · 519 阅读 · 0 评论 -
2018小结与2019展望
2018小结2018真的是眨眼就没。准确说高中毕业以后的时间过得好快,每年过年的时候我都觉得昨天才刚高中毕业。(呸!不要脸!)2018经历的主要大事应该就是考研调剂,读研生涯的开启以及成功脱单。准的来说整体经历一波三折,结局还算满意。学习考研调剂俗话说得好,“考得好不如报的好”,我就属于没报好的那一类。考研之前并没有什么明确的目标,读研的原因说实话是因为没想好以后要做什么,所以想留在学校...原创 2019-01-03 19:58:20 · 1133 阅读 · 0 评论 -
Python实现计分牌调度算法(含源码分享)
**写在前面:**这是体系结构课程的一次作业,最终实现的是一个可视化(VUE框架)的计分牌调度展示小程序。仅记录我个人实现的部分,即算法部分,VUE框架是由队友实现的。...原创 2019-01-03 19:12:56 · 3329 阅读 · 2 评论 -
《程序员跳槽全攻略》读书笔记
写在前面的话 我是一个状态型选手,就像海潮,随着地月相对位置的变换涨潮退潮,我总是一段时间蹬蹬蹬像一个恐怖的工作狂,然后又进入一段时间的萎靡不振每天吃喝玩睡,吃喝玩睡够了以后(可能是够了,也可能是忧患意识起来了)又开始蹬蹬蹬蹬马不停蹄。 但是每一次的成魔都有立刻要完成的事,这次似乎没有太明确的目标。没有目标就是这一次疯魔的针对对象,作为一个没有太多社会经验工程经历仍在学校里摸鱼玩耍的我,该...原创 2018-12-21 00:49:58 · 327 阅读 · 0 评论 -
python数据分析学习路径
数据采集(爬虫) 数据采集部分的学习主要是通过python爬虫的学习了解基本的外部数据采集情况,当然也可以借助别人写好的规则库直接完成某些数据的采集。在线教程Python爬虫入门一之综述:http://cuiqingcai.com/927.htmlPython爬虫入门二之爬虫基础了解:http://cuiqingcai.com/942.htmlPython爬虫入门三之Urllib...转载 2018-12-18 18:19:22 · 311 阅读 · 0 评论 -
python微信编程:itchat实现撤回消息捕获
itchat是一个开源的微信个人号接口,使用python调用微信变得非常简单。简单是用itchat代码即可构建一个基于微信的即时通讯,更不错的体现在于方便扩展个人微信的在其他平台的更多通讯功能。...转载 2018-12-18 17:39:34 · 548 阅读 · 0 评论 -
markdown(typora)使用过程中遇到的一些问题
为什么使用“公式公式公式”无法在句子内部插入数学公式?如何插入目录?使用“[toc]"会自动根据使用的一二三级标题生成目录如何插入分页符?typora导出pdf时希望分页可以添加这个html实现。 ...转载 2018-12-15 18:02:36 · 2412 阅读 · 0 评论 -
体系结构-基本DLX流水线流水段/指令示意图
原创 2018-10-23 16:08:19 · 2486 阅读 · 0 评论