Python
文章平均质量分 90
风风雨雨中寻觅
平平淡淡,简简单单,取长补短,修炼身心
展开
-
Python与R协同完成【中国裁判文书网】文书内容爬取
概述:目标网站:http://wenshu.court.gov.cn/核心:爬取每份文书的DocID请求URL:http://wenshu.court.gov.cn/List/ListContent请求类型:POST传参表格数据参数:Param,Index,Page,Order,Direction,vl5x,number,guid分析过程:1.guid也称为uuid,通用唯一...原创 2018-08-16 10:43:09 · 3599 阅读 · 13 评论 -
windows10中使用jupyter lab
1.jupyter lab简介jupyter notebook是一种Web应用能将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中,可直接在代码旁写叙述性文档而不是另外编写单独的文档。jupyter是它要服务的三种语言缩写:Julia,Python和R。jupyter Notebook可让数据分析师集中精力向用户解释整个分析过程,可通过jupyter notebook写出学习...原创 2019-04-29 21:20:43 · 3135 阅读 · 0 评论 -
Python中深拷贝与浅拷贝详解
所有Python对象都有三个属性:身份、类型、值name='a'id(name) #id-身份唯一标识type(name) #对象类型1.可变对象列表、字典、集合,指可变对象的值可变,身份不变2.不可变对象数字、字符串、元组对象身份和值都不可变。新创建对象被关联到原来变量名,旧对象被丢弃,垃圾回收器会在适当时机回收这些对象3.引用Python程序中每个对象都会在...原创 2019-03-31 22:12:48 · 192 阅读 · 0 评论 -
Python条件、循环和其他语句概述
1.序列解包当函数或方法返回元组(或其他序列或可迭代对象时),可使用该特性#分别赋值x,y,z=1,2,3x,y=[1,2]x,y=(1,2)x,y={'ti':2,'an':4} #x:'ti' y:'an',只返回键#交换变量值x,y=y,xprint(x,y,z) #2 1 3#定义字典并随机弹出键值对,序列解包给m,nx=dict()x[12]=['...原创 2019-01-01 18:07:23 · 159 阅读 · 0 评论 -
GBDT梯度提升决策树-理清每个细节-附Python代码
2019-01-14修改部分文字内容,增强理解 2019-01-17修改章节4.提升树算法与负梯度拟合,章节5.梯度提升回归树算法,更改公式、加注释使其更加容易理解 增加章节2.GBDT优缺点,6.梯度提升分类树算法1.GBDT概念以决策树为基学习器的集成学习算法具有预测精度高的优势,树的集成算法主要有随机森林和GBDT。随机森林具有很好的抗过...原创 2018-12-25 20:25:45 · 8608 阅读 · 0 评论 -
URL编码、解码
url标准中只允许一部分ASCII字符,如英文字母、数字字符、部分符号等。其他字符如-*汉字等,应被编码为%+两位的十六进制表示,任何单字节字符都可被编码(多字节是逐字节编码)。保留字符(! $ & ' ( ) * + , ; = : / ? @ # [ ])是否编码1.R语言实现#repeated-已经编码过的url是否被再次编码URLencode(URL,reserved=...原创 2019-01-03 19:52:20 · 267 阅读 · 0 评论 -
Python基本语法概述
1.数字与表达式#变量名可以包括字母/数字/下划线,但不能以数字开头// 整除运算符\ 转义字符串% 取模(对浮点数也适用)** 幂次运算,或者使用pow(x,y)= 赋值符号int(x) 浮点数转换成整数(向下取整)float(x) 将字符串或数字转换成浮点数#复数求平方根(Python中没有单独的虚数类型-即实部等于0的复数)import cmathcma...原创 2018-12-23 16:21:54 · 139 阅读 · 0 评论 -
决策树算法-理清每个细节-附R+Python代码
2018-12-20更新,新增内容2019-01-14更新,对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中,树是一种重要数据结构,比如二叉查找树、红黑树等,通过引入“树”数据结构,可以很快缩小数据规模,实现高效查找。一般情况面对的样本通常具有很多特征,对事务的判断不能只从一个角度出发,决策树的思想是先从一个特征入手,通过这次分类使问题规模缩小,同时分类后的子集相比...原创 2018-12-19 20:53:20 · 5303 阅读 · 2 评论 -
腾讯文智自然语言处理介绍与情感分析API调用
一.产品概述文智中文语义开放平台是基于并行计算系统和分布式爬虫平台,结合独特的语义分析技术,一站式满足用户NLP、转码、抽取、全网数据抓取等中文语义分析需求的开放平台。用户能够基于平台对外提供的OpenAPI实现搜索、推荐、舆情、挖掘等语义分析应用腾讯云文智中文语义平台以SDK模块方式提供服务,支持多种编程语言二.产品功能Action id查询:https://cloud.tenc...原创 2018-11-05 18:30:01 · 5536 阅读 · 6 评论 -
爬虫程序包之RCurl详解暨重定向问题剖析
RCurl程序包提供R到libcurl库的接口,从而实现HTTP的一些功能,如从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等Curl:利用url语法在命令行方式下工作的开源文件传输工具,其背后的库即libcurlRCurl三大函数:getURL(),getForm(),postForm()#判断url是否存在 url.exists(url="www...原创 2018-08-06 15:42:02 · 882 阅读 · 0 评论 -
xpdf用法、antiword用法、python-docx用法
PDF的解析: 1.OCR软件识别,如FineReader; 2.基于Java的SDK,如pdfbox,itext; 3.基于Python的SDK,如pdfMiner,pyPdf; 3.其他工具pdf2htmlex,xpdf本篇只介绍xpdf PDF的转换解析工具-xpdf,可以pdftohtml,pdftotext,pdfto...原创 2018-07-14 23:07:53 · 3648 阅读 · 4 评论 -
使用tensorflow预测时间序列:TFTS库
Tensorflow1.3版本中引入tensorflow time series模块,简称TFTS,专门设计一套针对时间序列预测问题的API,提供AR、anomaly mixture AR和LSTM三种预测模型#项目地址https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/timeseries#代码...原创 2019-06-08 12:05:06 · 1727 阅读 · 1 评论