数据处理
文章平均质量分 91
Xy-Huang
好像除了写代码,啥也不会了......
展开
-
Golang 实现word和Excel处理
Golang 实现word和Excel处理原创 2022-08-18 18:32:52 · 6472 阅读 · 0 评论 -
Python pywin32实现word和Excel的处理
Python pywin32实现office(word和excel)开发原创 2022-08-18 12:23:26 · 2340 阅读 · 0 评论 -
GoLang—使用net/http构建Web服务(文件数据存储)(上)
数据存储可以分为三大类:文件存储、关系型的数据库(SQL)和非关系型的数据库(NoSQL)。本文主要讲述文件存储的实现方式。文件存储根据不同的文件实现不同的存储方式:普通文件(如txt读写)、CSV文件、数据的序列化和持久化。普通文件(如txt读写)普通文件的读写可以使用os或io/ioutil包实现,两者的实现方式如下所示。package mainimport ( "fmt" "...原创 2019-09-29 19:04:38 · 1019 阅读 · 1 评论 -
GoLang—使用net/http构建Web服务(gorm实现数据存储)(下)
ORM框架介绍ORM框架是专业开发人员必备的数据库操作手段,有关ORM框架的介绍不再详细介绍,读者可以点击(ORM框架介绍)查看相关介绍。在GoLang中,主流的ORM框架有gorm、xorm和gorose等,三者各有优缺点并且有相应的文档支持,便于大家学习和查阅,本文将简单介绍gorm框架的使用gorm本文根据gorm的官方文档,简单说明gorm的使用方式,以数据表index_label...原创 2019-11-05 12:23:43 · 1415 阅读 · 0 评论 -
GoLang—MySQL数据库操作
Go标准库中没有数据库驱动,如果实现数据库连接与操作,参见获取第三方的数据库驱动。本文以MySQL为例,我们使用go-sql-driver实现数据库的连接和操作,首先在CMD窗口下安装驱动go-sql-driver,指令如下。go get github.com/go-sql-driver/mysql数据库驱动安装成功后,在GoLand(ide)中使用go-sql-driver实现数据库的连接...原创 2020-07-20 12:22:08 · 649 阅读 · 0 评论 -
GoLang—爬虫—解析JSON数据
JSON作为一种重要的数据格式,具有良好的可读性以及自描述性,广泛地应用在各种数据传输场景中。在网络爬虫中,当网页采用AJAX方式渲染数据时,我们必须找出AJAX的异步请求方式,并且模拟发送AJAX,从中获取数据内容,AJAX的响应数据大部分采用JSON格式表示。GoLand可以使用标准库encoding/json解析JSON数据,此外还有第三方包ffjson、easyjson、jsoniter...原创 2020-07-20 12:21:53 · 2151 阅读 · 0 评论 -
GoLang—爬虫—数据清洗(goquery)
当原创 2020-07-20 12:22:17 · 1950 阅读 · 2 评论 -
Python 自然语言处理(基于Gensim)
欢迎加入学习交流QQ群:657341423Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 简单地说,Gensim主要处理文本数据,对文本数据进行建模挖掘。...原创 2018-05-15 17:39:56 · 1867 阅读 · 0 评论 -
Python 使用wordcloud制作词云图
欢迎加入学习交流QQ群:657341423wordcloud是Python的一个第三方模块,安装方法可以通过下载安装包,然后使用pip对安装包执行安装。安装包下载地址:请点击wordcloud的基本用法class wordcloud.WordCloud(font_path=None, width=400, ...原创 2018-05-17 15:24:34 · 1779 阅读 · 0 评论 -
Python pyocr和Tesseract-OCR的安装以及使用
PyOCR是一个用于python的光学字符识别(OCR)工具包装器。也就是说,它有助于使用Python程序中的OCR工具。 安装:pip install pyocr 还需安装PIL:pip install Pillow PIL主要用于打开图片以及一些处理 此外最重要需要安装OCR引擎,官网原文:PyOCR可以用作google的Tesseract-OCR或Cuneiform 的包装器 。它可原创 2017-03-13 16:42:10 · 15758 阅读 · 1 评论 -
Python OCR识别图片验证码(二)
操作系统:Windows Python:3.5上节讲到验证码的简单识别但对于一些复杂的验证码,我们需要做一些简单的图片处理才能识别。例如,我要识别这些验证码: 设计思路:首先将图片变灰,然后转为RGBA,即四个通道,每个通道代表每种颜色,这个涉及到图片处理的一些基础知识。这个可以研究一下opencv。这个比较有意义。然后判断通道的颜色来转换成黑白色彩。便于OCR识别。from PIL impo原创 2017-05-31 11:51:17 · 10266 阅读 · 1 评论 -
Python数据分析与挖掘实战(数据预处理)
操作系统:Windows Python:3.5在做数据分析的时候,我们会通过爬虫或者数据库里得到一批原始数据的。这个上节说过的,但是对于这些数据需要做一个数据清洗,去除异常值,缺失值等,确保数据的准确性和后续生成的模型的正确性。 这节就讲解数据预处理。缺失值处理: 处理方法大致三种: 1,删除记录 2,数据插补 3,不处理 如果简单删除数据达到既定的目的,这是最有效原创 2017-07-15 21:52:15 · 1662 阅读 · 1 评论 -
Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)
操作系统:Windows Python:3.5上节讲到数据分析和挖掘需要的库,其中最主要的是Pandas,Matplotlib。 Pandas:主要是对数据分析,计算和统计,如求平均值,方差等。 Matplotlib:主要结合Pandas生成图像。两者往往结合使用的。Pandas: 上图中针对的是对象为DataFrame或者Series 对于DataFrame和Series区别,参考原创 2017-06-13 15:08:03 · 2746 阅读 · 0 评论 -
Python数据分析与挖掘实战(开发流程及常用库安装)
操作系统:Windows Python:3.5Python数据分析与挖掘主要流程如图: 基本上做一个数据分析,大致的流程都是这样的。最后根据模型说明进行相关的事务决策。这里简单说一下数据采集,如果数据来源是来自于数据库,直接获取数据库数据即可。如果是源于网站上的数据,这个可以实现爬虫方式爬取数据。基本上数据采集来源都是这2部分的比较多。这里就不做详细的说明。 后续会详细解说后面的流程。这里用原创 2017-06-02 11:31:20 · 750 阅读 · 0 评论 -
Python3 OCR技术(pytesser3)
PIL安装:pip install Pillow pytesser3下载地址: https://github.com/songluyi/pytesser3 Tesseract OCR engine下载地址: http://www.softpedia.com/get/Programming/Other-Programming-Files/Tesseract-OCR.shtml (Tesser原创 2017-03-22 16:29:31 · 8715 阅读 · 0 评论 -
Python3 安装Opencv方法
到http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载所需的版本,注意版本号的对应。 opencv_python-3.1.0-cp35-cp35m-win_amd64.whl,scipy-0.17.1-cp35-cp35m-win_amd64.whl,numpy-1.11.0+mkl-cp35-cp35m-win_amd64.whl (!!!32位的系统转载 2017-03-19 22:26:47 · 9342 阅读 · 0 评论 -
Python OCR识别图片验证码(一)
对于某些网站登录的时候,往往需要输入验证码才能实现登录。如果要爬虫这类网站,往往总会比这个验证码导致无法爬取数据。以下介绍一种比较折中的方法,也是比较可行的方法: 实现思想: 1、通过截图获取验证码图片,为什么要截图,有的人会说,可以通过验证码图片的链接爬取下来,再用OCR识别就可以了,理论上这个方法是可行的,但是当你用这方法的时候,会发觉下载的图片和你实际页面的图片里面的内容是不一样的。 2原创 2017-03-27 17:22:52 · 15582 阅读 · 3 评论