自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 python学习问题总结之编码问题

编程的时候碰到这个错误:'gbk' codec can't decode byte 0x9d: illegal multibyte sequence。查了一下,意思是源文件不是用gbk编码的,因此用gbk解码会报错。尝试使用其他方式解码就可以了。...

2019-05-14 17:00:53 238

原创 中科院分词pynlpir使用说明续(翻译)

今天继续来写pynlpir分词库的后续pynlpir.nlpir(以下简称nlpir)。nlpir比pynlpir的功能相似,更易于使用,下面开始介绍。初始化pynlpir.nlpir.Init(data_dir, encoding=GBK_CODE, license_code=None)使用Init方法初始化函数。data_dir(str) - NLPIR数据文件夹的父文件夹的...

2019-04-26 10:31:09 2771 4

原创 中科院分词pynlpir使用说明(翻译)

今天用jieba分词分中英混合的句子时效果不太好,就寻求其他分词库,找到了中科院分词pynlpir,不过没找到比较新的,中文的使用说明,这里对照github上的英文说明做一个简要的介绍。安装在cmd里输入对应语句即可:pip install pynlpir需要说明的是,安装完成后,使用模块时提示我license有问题,需要更新一下,所以需要继续在cmd里输入:pynlpir...

2019-04-25 16:52:05 7066 4

原创 python学习问题总结之集合操作、列表操作速度快慢

前几天做了一个任务,有一个2700万行的关键词txt文档,关键词之间用%隔开,要求将每行关键词分隔开,并将整个txt文档里的所有词进行一个去重,最后将结果输出到一个新的txt文档里,每个关键词占一行。任务并不难,我很快就编好了代码,输出的部分就不说了,主要讲输入已经操作的过程,具体代码如下:a = set()i = 0with open('中文期刊关键词.txt', 'r', enc...

2019-04-23 16:41:35 1280

原创 机器学习数值计算

原文链接:机器学习原理今天来看看数值计算,废话不多说,进入正题。数值计算机器学习通常需要大量的数值计算。这里说一下数值计算中的需要注意的问题。1.Overflow and Underflow 上溢出和下溢出下溢出是数字接近于零时被舍入成0,上溢出是数字较大的时候将其当成非字符处理。解决的方式类似于变量代换。[原创] 如何防止softmax函数上溢出(overflow)和下溢...

2019-04-18 15:10:11 646

转载 机器学习梯度下降

原文地址:机器学习原理想要学习机器学习,就避不开数学,一想到我这学渣,竟然还要学习高数,就脑瓜子疼,不过也只能一点一点啃了。梯度下降1.梯度定义:对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。含义:是函数变化增加最快的地方。类似于山脉上最陡的地方。沿着梯度的方向能快速找到函数的最大值(不一定是全局最优)。相反则可以快速找到函数的最小值(同...

2019-04-18 11:13:21 135

原创 python学习问题总结之xpath根据nodename选取节点

在使用xpath进行爬虫的过程中总是出现各种各样的小问题,于是我就上网查了一下,详细的学习了xpath语法,是在w3school上看的,学习过程中我发现一个小问题,在原文中给出的路径表达式列表里,对于“nodename”这一类表达式的说明是“选取此节点的所有子节点”,结合一段html文本:text = '''<div> <ul> <l...

2019-04-17 15:58:43 1558 3

转载 机器学习算法分类

不能再继续浑浑噩噩混日子了,要抓紧时间学习。然后在网上找了一个机器学习的介绍网站,感觉还是不错的,网址在此机器学习原理感兴趣的小伙伴可以去看一下。本人打算每天学一些,然后将中的内容简要记录下来,留作以后查看记忆,若是能帮助到其他人一点两点,便大大超出我现在的期望了。当然,由于是没有基础的自学,文中往往掺杂了我在查找资料后一些自己的理解,可能会有错误的地方,还请大家谅解,在评论中提示我一下。...

2019-04-17 15:19:14 156

原创 python学习问题总结之找不到的xpath

问题描述:在使用xpath爬虫的过程中,我想提取带有某一属性的节点内部的文本,但输入节点和属性之后,并没有返回相关的文本,相关代码如下所示:fujian1_text = fujian1_text_tree.xpath('//span[@class = "normal105"]//*/text()')在这里我想活得span下所有子孙节点的内容,其中span节点的class属性是"normal1...

2019-04-15 11:03:18 1976

原创 python学习问题总结之FileNotFoundError

问题描述:在爬虫时,想将文件保存到对应题目的文件夹下,在生成文件夹中的过程中出现如下错误:FileNotFoundError: [Errno 2] No such file or directory: 'E:\中信所\技术中心\工作\规划类文件采集\国科馆公共服务平台及科学技术部指南内容采集\附件类文件\科技部\关于国家重点研发计划“生物医用材料研发与组织器官修复替代”重点专项2019年度项目申...

2019-04-15 09:36:56 6268 1

原创 python学习问题总结之UnicodeDecodeError

问题内容:'utf-8' codec can't decode byte 0xd6 in position 20: invalid continuation byte相关代码:#科技部数据获取def get_url(a,b): for i in range(a,b): if a == 0: url = 'http://www.most.go...

2019-04-11 09:29:36 352

原创 python学习问题总结

在以往的学习过程中,经常会遇到各种各样的问题,有些问题当时就能解决,而有的则要拖很久,更有些问题,在不同代码里表现的形式也不一样,解决方式也略有不同,所以开这里一类文章,用以记录所遇到的问题以及相应的解决方法,以便自己和别人查看。...

2019-04-10 16:44:18 141

原创 LintCode实践之丑数2

原题:设计一个算法,找出只含素因子2,3,5 的第 n 小的数。符合条件的数如:1, 2, 3, 4, 5, 6, 8, 9, 10, 12...我们可以认为1也是一个丑数。样例:如果n = 9, 返回 10。个人思路:1作为一名标准的算法小白我的首先想法自然是最简单的暴力解法,[捂脸]。从0开始对每一个数字进行判断,如果是丑数的话则令计数器加一(判断方法参照LintCde编程实践之丑...

2018-09-25 14:52:05 193 1

原创 LintCde编程实践之丑数

原题目:写一个程序来检测一个整数是不是丑数。丑数的定义是,只包含质因子 2, 3, 5 的正整数。比如 6, 8 就是丑数,但是 14 不是丑数以为他包含了质因子 7。1是特殊的丑数,0不是丑数。样例:给出 num = 8,返回 true。给出 num = 14,返回 false。个人思路:1采用while (1)的方式不断循环。2判断是否为0或1。3判断是否能被2或者3或者5...

2018-09-20 23:03:00 129

原创 LintCde编程实践之统计数字

原题目:计算数字k在0到n中的出现的次数,k可能是0~9的一个值样例:例如n=12,k=1,在 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],我们发现1出现了5次 (1, 10, 11, 12)个人思路:1将range(n)转换成list。2用join函数将数组中的数字组合成一整个字符串,需要注意的是join函数组合的对象不能是数字,需要将l...

2018-09-20 22:32:33 147

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除