- 博客(23)
- 资源 (37)
- 收藏
- 关注
原创 dataframe转换成dict和列表的技巧
1、问题描述:需要将dataframe格式数据变成一个列表,而列表中的每个元素为字典格式?开始直接采用df.to_dict()方法无法实现效果。to_list也是一样
2020-05-29 15:34:31 8374 3
原创 git查看相对于最新的push改动内容
1、问题来源:我在本地修改了相关内容,但提交前想看看,修改的内容,使用了giff log等命令显示出来的都是最新提交的历史改动,并非我所需?使用如下命令即可:git statusgit diff filenamegit status显示改动的文件git diff filename就可以查看改动的内容...
2020-05-28 11:15:13 1024
原创 python的字符串的转义
s = "\.\s\.\n"s结果输出:'\\.\\s\\.\n'为什么结果会这样呢?初步假设为:字符串中支持的转义变量不包括\.和\s;可以认为字符串对输入的变量有一个处理模式,如果遇到斜杠,然后和斜杠后面的字符组成一个组,然后检查是否在名单列表中,如果在保持原样。如果不在,就将斜杠转换成双斜杠,让斜杠失去转义的作用。...
2020-05-21 20:54:28 1155
原创 邮件header中的subject或者from解码
from email.header import decode_headerprint(decode_header("=?gbk?B?u+nJtA==?="))print(decode_header("=?gbk?B?u+nJtA==?=")[0][0].decode("gbk"))输出:[(b'\xbb\xe9\xc9\xb4', 'gbk')]婚纱其他相应的包import binasciiimport email.quoprimimeimport email.base64mim.
2020-05-21 14:31:40 1775
原创 python中的带有换行符的字符串在juypter中直接输入、print与写入文件的区别
为什么会有这么个问题呢?因为我在jupternotebook中输入带有换行符的字符串\n,但最终结果并没有体现换行的效果,这个出乎我意料,于是就有了这个记录。实验结果:第一种:jupternotebook:s = "www.baidu.\n.com\n"s输出:'www.baidu.\n.com\n'这种方式输出是直接返回字符串的原始内容,即内存中的原始样貌。第二种:直接printprint("www.baidu.\n.com\n")输出:www.baidu.
2020-05-20 18:39:56 2343
原创 Gmail用人工智能技术判定垃圾邮件
大约10年前,垃圾邮件几乎要毁了电子邮箱。一场拯救人们的邮箱的比赛随即打响,两大科技巨头也力争夺得垃圾邮件头号杀手的头衔。2012年2月,微软声称,它能够过滤掉Hotmail 97%的垃圾邮件。谷歌后来作出回应,称它的Gmail能够过滤掉大约99%的垃圾邮件,而且误判率(将没问题的邮件误判为垃圾邮件的比例)也只有1%。两家公司的成果表明,启发式检测技术——按照预设规则识别垃圾邮件——能奏效。不过,它们还不够出色。1%的垃圾邮件还是会让人很烦恼,而1%的误判率也可能带来不小的麻烦,尤其是错过重要的
2020-05-17 10:11:10 1794
原创 dict格式转字符串两种方法的区别
问题起源:在分析邮件内容的过程当中,由于邮件加载后是个dict格式,然后保存时需要变成字符串格式保存。一开始选择了str(dict)方法。但这个方法存在一个问题,保存后的字符串个key和value前都带了个u。比如说:{u"xxx":u"aaa"}这种再次加载成dict格式就会报错。那么怎么办呢?突然发现自己忘记了json有个专门转字符串的功能。json.dumps(dict)然后就是正常的,没有带u了。总得的而言:以后这种字典列表类型转字符串的函数选用json.dumps。
2020-05-16 12:35:16 722
原创 python2执行程序内存溢出导致被killed的问题因果分析
问题来源:执行一段程序,对某个函数重复执行,当执行到一半时,就显示被killed,重复几次均如此。为什么会这样呢?第一步、定位被killed的根本原图; 使用vi /var/log/messages查看日志。日志显示,是由于内存溢出导致的。第二步、定位内存溢出的原因:在主要的函数的前面加入@profile,用于显示每行代码的内存使用情况。通过输出显示,该函数的内存一直在增长。第三、第一种假设,会不会是某某变量没有释放导致内存一直在增加。深入分析发现,并不存在这种情...
2020-05-15 19:45:58 3123 1
转载 AC自动机的使用案例
#coding:utf-8import ahocorasickdef make_AC(AC, word_set): for word in word_set: AC.add_word(word,word) return ACdef test_ahocorasick(): ''' ahocosick:自动机的意思 可实现自动批量匹配字符串的作用,即可一次返回该条字符串中命中的所有关键词 ''' key_list = ["苹果".
2020-05-15 10:08:04 923
原创 一行代码太长的解决方法
重点注意字符串换行,是每一行都是完整的字符串,即每一行都有单双引号,而不是我前面认为的整个句子只有一对单双引号,即起始位置。
2020-05-12 21:18:54 6783
原创 python 中反斜杠在字符串过长的正确用法
正确的用法:url = "https://www.baidu.com/" \ "yyyy" \ "/xxxx.html"url'https://www.baidu.com/yyyy/xxxx.html'错误的用法:url = "https://www.baidu.com/ \ yyyy \ /xxxx.html"url'https://www.baidu.com/ yyyy .
2020-05-12 20:35:12 706
原创 几乎最全的中文NLP资源库
NLP民工的乐园The Most Powerful NLP-Weapon ArsenalNLP民工的乐园: 几乎最全的中文NLP资源库词库 工具包 学习资料在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!长期不定时更新,欢迎watch和fork!涉及内容包括但不限于:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取...
2020-05-12 10:10:38 34457 3
原创 re.search中与正则表达式*结合使用的注意事项
text = "abdde"re.search("[0-9]*", text)输出:<_sre.SRE_Match object; span=(0, 0), match=''>预期的结果:None为什么呢?text = "abdde"re.search("[0-9]+", text)输出:None预期:None本质的原因:使用了*不限次数的通配符。这样没有出现即0次,也可以匹配到结果。所以一定会匹配到结果,即不可能为空。...
2020-05-11 16:12:02 377
原创 钓鱼邮件好的开源项目
https://github.com/elceef/dnstwistSee what sort of trouble users can get in trying to type your domain name. Find lookalike domains that adversaries can use to attack you. Can detect typosquatters, phishing attacks, fraud, and corporate espionage. Useful..
2020-05-10 18:14:18 1496
原创 python2中的字符串编码注意事项
1、不同编码之间进行转换的桥梁是最上层的字符集。2、python2的字符本质是一种二进制码。python环境下:如图所示:>>> s = "你好">>> s'\xe4\xbd\xa0\xe5\xa5\xbd'>>> type(s)<type 'str'>>>> s.decode("utf-8")u'\u4f60\u597d'>>> 从打印出来的信息看,s本质是一个十.
2020-05-09 14:51:19 246
原创 \u与\x的区别
代号的英文意义:十六进制:Hex十进制:Decimalpython代码中使用:\x本质代表的是一种存储方式,计算机能理解的语言。\u是一种字符集,性质等同于字符串;本质是一样的,只是两套字典集。两者的区别,如下所示:可参考https://stackoverflow.com/questions/643694/what-is-the-difference-between-utf-8-and-unicode...
2020-05-09 13:04:25 5048
原创 创建python2与python3虚拟环境失败的原因
ERROR: setuptools requires Python '>=3.5' but the running Python is 2.7.5OSError: Command /root/virtualenvs/sip_python27/bin/python2.7 - setuptools pip wheel failed with error code 1一直在setuptools上面用功夫,花了数小时也未能解决问题。最后从https://stackoverflow.com/ques
2020-05-09 10:43:27 921
原创 代码质量检测的方法
一、代码规范:1) 、pylint2)、Autopep8两个方法各有千秋,第一个方法会有import 前后检测等等。第二个方法是就是Pep8规范的检测。二、逻辑规范:1)、Unittest2)、覆盖率测试Unittest写完后,可以直接用Coverage run xxx.py文件,然后再用coverage report查看运行结果。结果:包括两个部分;一是单元 测试...
2020-05-08 11:27:26 1264
原创 获取顶级域名与一级域名的python库-tld
可以参考:https://pypi.org/project/tld/获得顶级域名与一级域名的python库。get_tld与get_fld
2020-05-07 16:42:35 2638
原创 字符串中斜杠换行注意事项之-多余空格
pat1 = "<a href=[\"|\']((?:www|http|https)\[^\"\']+)[\"|\']>更新</a>"print(pat1)pat2 = "<a href=[\"|\']((?:www|http|https)\ [^\"\']+)[\"|\']>更新</a>"print(pat2)<...
2020-05-07 15:09:49 394
原创 vim查找忽略大小写
方法一、直接使用: /textset ic (ignore case)/text方法二、/text/text\c/text\C就会对大小写敏感。两个方法都非常好用 。
2020-05-07 09:46:36 947
Training deep network without learningrate coinbet
2018-11-14
stacked Denoise autoencoder learning useful representation
2018-11-14
深度学习+tf
2018-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人