自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (37)
  • 收藏
  • 关注

原创 dataframe转换成dict和列表的技巧

1、问题描述:需要将dataframe格式数据变成一个列表,而列表中的每个元素为字典格式?开始直接采用df.to_dict()方法无法实现效果。to_list也是一样

2020-05-29 15:34:31 8374 3

原创 git查看相对于最新的push改动内容

1、问题来源:我在本地修改了相关内容,但提交前想看看,修改的内容,使用了giff log等命令显示出来的都是最新提交的历史改动,并非我所需?使用如下命令即可:git statusgit diff filenamegit status显示改动的文件git diff filename就可以查看改动的内容...

2020-05-28 11:15:13 1024

原创 python的字符串的转义

s = "\.\s\.\n"s结果输出:'\\.\\s\\.\n'为什么结果会这样呢?初步假设为:字符串中支持的转义变量不包括\.和\s;可以认为字符串对输入的变量有一个处理模式,如果遇到斜杠,然后和斜杠后面的字符组成一个组,然后检查是否在名单列表中,如果在保持原样。如果不在,就将斜杠转换成双斜杠,让斜杠失去转义的作用。...

2020-05-21 20:54:28 1155

原创 邮件header中的subject或者from解码

from email.header import decode_headerprint(decode_header("=?gbk?B?u+nJtA==?="))print(decode_header("=?gbk?B?u+nJtA==?=")[0][0].decode("gbk"))输出:[(b'\xbb\xe9\xc9\xb4', 'gbk')]婚纱其他相应的包import binasciiimport email.quoprimimeimport email.base64mim.

2020-05-21 14:31:40 1775

原创 python中的带有换行符的字符串在juypter中直接输入、print与写入文件的区别

为什么会有这么个问题呢?因为我在jupternotebook中输入带有换行符的字符串\n,但最终结果并没有体现换行的效果,这个出乎我意料,于是就有了这个记录。实验结果:第一种:jupternotebook:s = "www.baidu.\n.com\n"s输出:'www.baidu.\n.com\n'这种方式输出是直接返回字符串的原始内容,即内存中的原始样貌。第二种:直接printprint("www.baidu.\n.com\n")输出:www.baidu.

2020-05-20 18:39:56 2343

原创 Gmail用人工智能技术判定垃圾邮件

大约10年前,垃圾邮件几乎要毁了电子邮箱。一场拯救人们的邮箱的比赛随即打响,两大科技巨头也力争夺得垃圾邮件头号杀手的头衔。2012年2月,微软声称,它能够过滤掉Hotmail 97%的垃圾邮件。谷歌后来作出回应,称它的Gmail能够过滤掉大约99%的垃圾邮件,而且误判率(将没问题的邮件误判为垃圾邮件的比例)也只有1%。两家公司的成果表明,启发式检测技术——按照预设规则识别垃圾邮件——能奏效。不过,它们还不够出色。1%的垃圾邮件还是会让人很烦恼,而1%的误判率也可能带来不小的麻烦,尤其是错过重要的

2020-05-17 10:11:10 1794

原创 dict格式转字符串两种方法的区别

问题起源:在分析邮件内容的过程当中,由于邮件加载后是个dict格式,然后保存时需要变成字符串格式保存。一开始选择了str(dict)方法。但这个方法存在一个问题,保存后的字符串个key和value前都带了个u。比如说:{u"xxx":u"aaa"}这种再次加载成dict格式就会报错。那么怎么办呢?突然发现自己忘记了json有个专门转字符串的功能。json.dumps(dict)然后就是正常的,没有带u了。总得的而言:以后这种字典列表类型转字符串的函数选用json.dumps。

2020-05-16 12:35:16 722

原创 python2执行程序内存溢出导致被killed的问题因果分析

问题来源:执行一段程序,对某个函数重复执行,当执行到一半时,就显示被killed,重复几次均如此。为什么会这样呢?第一步、定位被killed的根本原图; 使用vi /var/log/messages查看日志。日志显示,是由于内存溢出导致的。第二步、定位内存溢出的原因:在主要的函数的前面加入@profile,用于显示每行代码的内存使用情况。通过输出显示,该函数的内存一直在增长。第三、第一种假设,会不会是某某变量没有释放导致内存一直在增加。深入分析发现,并不存在这种情...

2020-05-15 19:45:58 3123 1

转载 AC自动机的使用案例

#coding:utf-8import ahocorasickdef make_AC(AC, word_set): for word in word_set: AC.add_word(word,word) return ACdef test_ahocorasick(): ''' ahocosick:自动机的意思 可实现自动批量匹配字符串的作用,即可一次返回该条字符串中命中的所有关键词 ''' key_list = ["苹果".

2020-05-15 10:08:04 923

原创 一行代码太长的解决方法

重点注意字符串换行,是每一行都是完整的字符串,即每一行都有单双引号,而不是我前面认为的整个句子只有一对单双引号,即起始位置。

2020-05-12 21:18:54 6783

原创 python 中反斜杠在字符串过长的正确用法

正确的用法:url = "https://www.baidu.com/" \ "yyyy" \ "/xxxx.html"url'https://www.baidu.com/yyyy/xxxx.html'错误的用法:url = "https://www.baidu.com/ \ yyyy \ /xxxx.html"url'https://www.baidu.com/ yyyy .

2020-05-12 20:35:12 706

原创 几乎最全的中文NLP资源库

NLP民工的乐园The Most Powerful NLP-Weapon ArsenalNLP民工的乐园: 几乎最全的中文NLP资源库词库 工具包 学习资料在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!长期不定时更新,欢迎watch和fork!涉及内容包括但不限于:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取...

2020-05-12 10:10:38 34457 3

原创 re.search中与正则表达式*结合使用的注意事项

text = "abdde"re.search("[0-9]*", text)输出:<_sre.SRE_Match object; span=(0, 0), match=''>预期的结果:None为什么呢?text = "abdde"re.search("[0-9]+", text)输出:None预期:None本质的原因:使用了*不限次数的通配符。这样没有出现即0次,也可以匹配到结果。所以一定会匹配到结果,即不可能为空。...

2020-05-11 16:12:02 377

原创 钓鱼邮件好的开源项目

https://github.com/elceef/dnstwistSee what sort of trouble users can get in trying to type your domain name. Find lookalike domains that adversaries can use to attack you. Can detect typosquatters, phishing attacks, fraud, and corporate espionage. Useful..

2020-05-10 18:14:18 1496

原创 python2中的字符串编码注意事项

1、不同编码之间进行转换的桥梁是最上层的字符集。2、python2的字符本质是一种二进制码。python环境下:如图所示:>>> s = "你好">>> s'\xe4\xbd\xa0\xe5\xa5\xbd'>>> type(s)<type 'str'>>>> s.decode("utf-8")u'\u4f60\u597d'>>> 从打印出来的信息看,s本质是一个十.

2020-05-09 14:51:19 246

原创 \u与\x的区别

代号的英文意义:十六进制:Hex十进制:Decimalpython代码中使用:\x本质代表的是一种存储方式,计算机能理解的语言。\u是一种字符集,性质等同于字符串;本质是一样的,只是两套字典集。两者的区别,如下所示:可参考https://stackoverflow.com/questions/643694/what-is-the-difference-between-utf-8-and-unicode...

2020-05-09 13:04:25 5048

原创 创建python2与python3虚拟环境失败的原因

ERROR: setuptools requires Python '>=3.5' but the running Python is 2.7.5OSError: Command /root/virtualenvs/sip_python27/bin/python2.7 - setuptools pip wheel failed with error code 1一直在setuptools上面用功夫,花了数小时也未能解决问题。最后从https://stackoverflow.com/ques

2020-05-09 10:43:27 921

原创 代码质量检测的方法

一、代码规范:1) 、pylint2)、Autopep8两个方法各有千秋,第一个方法会有import 前后检测等等。第二个方法是就是Pep8规范的检测。二、逻辑规范:1)、Unittest2)、覆盖率测试Unittest写完后,可以直接用Coverage run xxx.py文件,然后再用coverage report查看运行结果。结果:包括两个部分;一是单元 测试...

2020-05-08 11:27:26 1264

原创 获取顶级域名与一级域名的python库-tld

可以参考:https://pypi.org/project/tld/获得顶级域名与一级域名的python库。get_tld与get_fld

2020-05-07 16:42:35 2638

原创 字符串中斜杠换行注意事项之-多余空格

pat1 = "<a href=[\"|\']((?:www|http|https)\[^\"\']+)[\"|\']>更新</a>"print(pat1)pat2 = "<a href=[\"|\']((?:www|http|https)\ [^\"\']+)[\"|\']>更新</a>"print(pat2)<...

2020-05-07 15:09:49 394

原创 Linux打印指定的行范围

2020-05-07 10:55:42 1121

原创 邮件中&#符号的作用

&#252; 代表什么呢?输入到google搜索框中,自动转化成如下字符。从上述结果看,这种是特殊字符的转换。

2020-05-07 10:17:29 652 1

原创 vim查找忽略大小写

方法一、直接使用: /textset ic (ignore case)/text方法二、/text/text\c/text\C就会对大小写敏感。两个方法都非常好用 。

2020-05-07 09:46:36 947

化繁为简之Python代码

将文本中的繁体字均转化成简体字,语言为python,可供文本处理的数据科学家使用

2019-04-11

centos7.6所需gcc以及相应所有的包

为最新的centos系统提供安装gcc与相应的安装包,为离线安装节约大量的搜索与下载的时间

2019-03-17

Training deep network without learningrate coinbet

深度学习需要通过调节大量算法参数来获得最好的结果;其中就包括学习率的人为调节;该文档使用了coinbet算法,令学习率不需要再人为的设置

2018-11-14

stacked Denoise autoencoder learning useful representation

该论文主要论证了无监督学习sdae算法的有效性,该算法极大的降低了SVM分类算法的分类损失值;缩小与DBN差距,某些方面甚至超越DBN

2018-11-14

深度学习+tf

涉及深度学习各个领域,包括三大类框架CNN.RNN MLP;都是使用tensorflow实现的;还包括深度学习推荐算法;是一个学习tensorflow和深度学习实践的好文档

2018-11-14

使用自编码器与lstm预测金融时间序列

首先、wt(小波分析)过滤噪声 然后 saes(自编码器)提取强特征 最后用lstm进行学习训练

2018-04-18

长短期记忆时间序列预测金融市场

很好的描述了如何将人工智能之循环神经网络运用于金融之股票市场的预测,包括特征处理,标准化,结论,与传统机器学习的效果进行比较

2018-04-18

人工智能选股之Python实战

人工智能选股模型如何用python完成,即用python实现机器学习模型

2017-12-21

人工智能选股之朴素贝叶斯模型

人工智能选股之朴素贝叶斯模型主要讲解概率模型的股票交易市场中的应用,值得学习与借鉴

2017-12-21

基于机器学习的股票排名方法

传统的机器学习运用于选股的论文,对于量化研究爱好者可以借鉴与参考,

2017-12-21

FAMA-FRENCH

FAMA-FRENCH

2017-08-03

Python_Machine_Learning_By_Example

Python_Machine_Learning_By_Example

2017-08-03

BayesiOptimization

贝叶斯优化

2017-08-03

Advanced_Algorithmic_Trading

python版的算法交易

2017-08-03

统计思维:程序员数学之概率统计

统计思维:程序员数学之概率统计,程序员用统计学研究问题可以参考的!

2015-12-16

R语言获取国内的股票数据

直接用getSymbols能方便的获取国外的,但不能方便的获取国内的,代码经过检验可以直接获取国内股票日线数据

2015-12-16

将CSV格式转换成xts,zoo时间序列格式

R语言自己从网上downloadR数据是时间序列格式,但读取到的CSV格式并不是时间序列格式,这个代码经过验证,在需要的可以试试

2015-12-16

Rbreak日内交易策略

这个网上有现成的,这个作用还是挺大的,但是需要手动改改才能运行!

2015-12-16

c#学校网络断网自动重连

每10秒就会检测网络连接是否正常,如果断开,就会发送POST数据。

2015-04-10

pku 2371 快速查找法very easy!

这是pku里面一个比较容易的一个题目!快速查找法qsort里面的利用是最重要的!

2009-12-22

黑客零起点网络手册.chm

黑客零起点网络手册,要成为黑客就得从这里学起!加油吧!

2009-05-29

linux系统---linux命令.rar

linux系统---linux命令快快来下载啊,不容错过!

2009-05-29

容斥原理理论和鸽巢原理

非常难的一个算法,好好努力吧!快快来下载啊!

2009-05-29

算法分析与基础---蛮力法

这是算法中的一个非常实用的算法;格式为ppt格式;大小为99kb;

2009-05-29

银行模拟系统---简单方便

该系统具备普通银行系统功能,例如建立账户,存款和取款,查询;

2009-05-29

关键字图书馆管理系统

这是一个通过建立关键字索引表来完成图书查询的一个系统;

2009-05-29

servlet2.4.pdf

java servlet specification

2009-05-29

ASCII超级方便的查询器

此是一个可以方便我们查询ASCII的程序!

2008-09-08

十大利用矩阵乘法解决的经典题目

十大经典矩阵算法,此文本是pdf格式!c++语言程序

2008-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除