自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 git查看改变的方法

1、问题起源,我在代码git add之后,想查看改动的内容? 于是我尝试使用 git diff 无效 git diff filepath(路径路径+文件名) 无效 最终搜索且有效的方法如下: 首先git diff命令后面不带参数的,是没有暂存前(add)(staged是暂存的意思...

2020-06-02 10:25:03 28 0

原创 python自带的url提取器

2020-06-01 10:44:09 21 0

原创 dataframe转换成dict和列表的技巧

1、问题描述:需要将dataframe格式数据变成一个列表,而列表中的每个元素为字典格式? 开始直接采用df.to_dict()方法无法实现效果。to_list也是一样

2020-05-29 15:34:31 33 0

原创 git查看相对于最新的push改动内容

1、问题来源: 我在本地修改了相关内容,但提交前想看看,修改的内容,使用了giff log等命令显示出来的都是最新提交的历史改动,并非我所需? 使用如下命令即可: git status git diff filename git status显示改动的文件 git diff fi...

2020-05-28 11:15:13 26 0

原创 python的字符串的转义

s = "\.\s\.\n" s 结果输出: '\\.\\s\\.\n' 为什么结果会这样呢? 初步假设为:字符串中支持的转义变量不包括\.和\s;可以认为字符串对输入的变量有一个处理模式,如果遇到斜杠,然后和斜杠后面的字符组成一个组,然后检查是否在...

2020-05-21 20:54:28 32 0

原创 邮件header中的subject或者from解码

from email.header import decode_header print(decode_header("=?gbk?B?u+nJtA==?=")) print(decode_header("=?gbk?B?u+nJtA==?=")[0][0]...

2020-05-21 14:31:40 79 0

原创 python中的带有换行符的字符串在juypter中直接输入、print与写入文件的区别

为什么会有这么个问题呢? 因为我在jupternotebook中输入带有换行符的字符串\n,但最终结果并没有体现换行的效果,这个出乎我意料,于是就有了这个记录。 实验结果: 第一种:jupternotebook: s = "www.baidu.\n.com\n" s ...

2020-05-20 18:39:56 52 0

原创 Gmail用人工智能技术判定垃圾邮件

大约10年前,垃圾邮件几乎要毁了电子邮箱。一场拯救人们的邮箱的比赛随即打响,两大科技巨头也力争夺得垃圾邮件头号杀手的头衔。 2012年2月,微软声称,它能够过滤掉Hotmail 97%的垃圾邮件。谷歌后来作出回应,称它的Gmail能够过滤掉大约99%的垃圾邮件,而且误判率(将没问题的邮件误判为垃...

2020-05-17 10:11:10 574 0

原创 dict格式转字符串两种方法的区别

问题起源: 在分析邮件内容的过程当中,由于邮件加载后是个dict格式,然后保存时需要变成字符串格式保存。一开始选择了str(dict)方法。但这个方法存在一个问题,保存后的字符串个key和value前都带了个u。比如说: {u"xxx":u"aaa"} ...

2020-05-16 12:35:16 44 0

原创 python2执行程序内存溢出导致被killed的问题因果分析

问题来源: 执行一段程序,对某个函数重复执行,当执行到一半时,就显示被killed,重复几次均如此。为什么会这样呢? 第一步、定位被killed的根本原图; 使用vi /var/log/messages查看日志。日志显示,是由于内存溢出导致的。 第二步、定位内存溢出的原因: 在主要...

2020-05-15 19:45:58 106 0

转载 AC自动机的使用案例

#coding:utf-8 import ahocorasick def make_AC(AC, word_set): for word in word_set: AC.add_word(word,word) return AC def test_ahocora...

2020-05-15 10:08:04 65 0

原创 一行代码太长的解决方法

重点注意字符串换行,是每一行都是完整的字符串,即每一行都有单双引号,而不是我前面认为的整个句子只有一对单双引号,即起始位置。

2020-05-12 21:18:54 40 0

原创 python 中反斜杠在字符串过长的正确用法

正确的用法: url = "https://www.baidu.com/" \ "yyyy" \ "/xxxx.html" url 'https://www.baidu.com/yyyy...

2020-05-12 20:35:12 32 0

原创 几乎最全的中文NLP资源库

NLP民工的乐园 The Most Powerful NLP-Weapon Arsenal NLP民工的乐园: 几乎最全的中文NLP资源库 词库 工具包 学习资料 在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。 很多包非常有趣,值得收藏,满足大家的...

2020-05-12 10:10:38 516 0

原创 re.search中与正则表达式*结合使用的注意事项

text = "abdde" re.search("[0-9]*", text) 输出: <_sre.SRE_Match object; span=(0, 0), match=''> 预期的结果: None 为什么呢? ...

2020-05-11 16:12:02 44 0

原创 钓鱼邮件好的开源项目

https://github.com/elceef/dnstwistSee what sort of trouble users can get in trying to type your domain name. Find lookalike domains that adversaries ...

2020-05-10 18:14:18 90 0

原创 python2中的字符串编码注意事项

1、不同编码之间进行转换的桥梁是最上层的字符集。 2、python2的字符本质是一种二进制码。 python环境下: 如图所示: >>> s = "你好" >>> s '\xe4\xbd\xa0\xe5\xa5\xbd&...

2020-05-09 14:51:19 28 0

原创 \u与\x的区别

代号的英文意义: 十六进制:Hex 十进制:Decimal python代码中使用: \x本质代表的是一种存储方式,计算机能理解的语言。 \u是一种字符集,性质等同于字符串;本质是一样的,只是两套字典集。 两者的区别,如下所示:可参考https://stackoverf...

2020-05-09 13:04:25 89 0

原创 创建python2与python3虚拟环境失败的原因

ERROR: setuptools requires Python '>=3.5' but the running Python is 2.7.5 OSError: Command /root/virtualenvs/sip_python27/bin/python2.7...

2020-05-09 10:43:27 29 0

原创 代码质量检测的方法

一、代码规范: 1) 、pylint 2)、Autopep8 两个方法各有千秋,第一个方法会有import 前后检测等等。第二个方法是就是Pep8规范的检测。 二、逻辑规范: 1)、Unittest 2)、覆盖率测试 Unittest写完后,可以直接用Coverage run xxx...

2020-05-08 11:27:26 33 0

原创 获取顶级域名与一级域名的python库-tld

可以参考:https://pypi.org/project/tld/ 获得顶级域名与一级域名的python库。get_tld与get_fld

2020-05-07 16:42:35 65 0

原创 字符串中斜杠换行注意事项之-多余空格

pat1 = "<a href=[\"|\']((?:www|http|https)\ [^\"\']+)[\"|\']>更新</a>" print(pat1) pat2 = "<...

2020-05-07 15:09:49 28 0

原创 Linux打印指定的行范围

2020-05-07 10:55:42 19 0

原创 邮件中&#符号的作用

&#252; 代表什么呢? 输入到google搜索框中,自动转化成如下字符。 从上述结果看,这种是特殊字符的转换。

2020-05-07 10:17:29 58 0

原创 vim查找忽略大小写

方法一、 直接使用: /text set ic (ignore case) /text 方法二、 /text /text\c /text\C就会对大小写敏感。 两个方法都非常好用 。

2020-05-07 09:46:36 33 0

转载 version `XZ_5.1.2alpha' not found (required by /lib64/librpmio.so.3)

There was a problem importing one of the Python modules required to run yum. The error leading to this problem was: /root/anaconda3/lib/liblzma.so.5...

2020-04-28 20:50:50 135 0

原创 特征预处理--长尾分布的处理方案

声明:版权所有,转载请联系作者并注明出处http://blog.csdn.net/u013719780?viewmode=contents 0x00 前言 数据预处理包含数据探索、数据清洗和特征预处理三部分,《特征工程系列:特征预处理(上)》介绍了无量纲化和特征分桶相关的处理方法,本章将继...

2020-04-28 12:45:30 254 0

转载 Linux清空文件内容的三种方法

Linux清空文件内容的三种方法 测试文件:a.txt 第一种: $> a.txt 第二种: $echo "" > a.txt 第三种: $cat /dev/null > a.txt 上述内容转载于https...

2020-04-26 17:39:38 38 0

原创 collection包下Counter类统计list中各个元素出现的次数

from collections import Counter a = [1, 2, 3, 1, 1, 2] result = Counter(a) print(result)

2020-04-22 19:48:14 96 0

原创 正则表达式中(?:)的巨大作用

理论上的解释: 1、其中?:的作用是匹配Swift3模式字符串,但不会存储该匹配。 2、It's called a 'non-capturing group', which means the regex wouldnotmake a group by the m...

2020-04-14 16:45:09 46 0

转载 加速数据分析,这12种高效Numpy和Pandas函数为你保驾护航

我们都知道,Numpy 是 Python 环境下的扩展程序库,支持大量的维度数组和矩阵运算;Pandas 也是 Python 环境下的数据操作和分析软件包,以及强大的数据分析库。二者在日常的数据分析中都发挥着重要作用,如果没有 Numpy 和 Pandas 的支持,数据分析将变得异常困难。但有时我...

2020-04-12 22:44:28 58 0

原创 skip-gram模型结构

https://www.kdnuggets.com/2018/04/implementing-deep-learning-methods-feature-engineering-text-data-skip-gram.html

2020-04-11 19:54:18 43 0

原创 在notebook中如何能完整的显示长文本内容

print(eth_sample.iloc[0:1,0]) 输出结果: to the recent break=\r... Name: content, dtype: object 内容无法显示完全. print(eth_sample.iloc[0,0]) 而这样输入内容可以显示完全

2020-04-08 15:17:55 115 0

转载 条件随机场(CRF)和隐马尔科夫模型(HMM)最大区别在哪里?CRF的全局最优体现在哪里?

作者:尔总的马甲 链接:https://www.zhihu.com/question/53458773/answer/554436625 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。https://www.zhihu.com/question/53458773 ...

2020-04-08 12:49:14 180 0

原创 将代码从windows移动linux上出现^M错误的解决方法

我将代码从windows移动linux上出现了^M的错误,这种错误的本质是因为要个系统对换行符处理不同。windows是\r\n,而linux上是\n。 我的解决方法: 是使用linux系统自带的dos2unix ...

2020-04-07 20:27:42 57 0

原创 vim插件推荐之auto-pairs

安装如下: 功能是自动配对,效果如下:

2020-04-06 17:39:01 82 0

原创 vim与Python推荐之插件Autopep8

摘要:需要在python和vim端同时安装pep8包;使用命令为Autopep8。 第一步:在Python端需要安装pep8包; 第二步:在vim端安装autopep8插件 第三步:使用命令:Autopep8 ...

2020-04-06 16:50:48 81 0

原创 vim插件推荐之indentLine

安装插件 效果如下: 非常完美!

2020-04-06 16:22:51 63 0

原创 相对熵与交叉熵的区别

先来看定义,一目了然: 结论:交叉熵是相对熵的一种特殊情况,即p(x)分布是已知的,因而导致公式的后半部分为常数项。

2020-04-06 15:01:02 177 0

转载 文本相似度量的非常好的ESIM算法

论文来源:TACL 2017 论文链接:Enhanced LSTM for Natural Language Inference 今年不知道怎么回事,以短文本匹配为赛题的数据挖掘比赛层出不穷,自从Quora Question Pairs | Kaggle开始,到天池CIKM AnalytiCu...

2020-04-06 11:30:24 265 0

提示
确定要删除当前文章?
取消 删除