python与大数据分析
码龄20年
  • 1,085,243
    被访问
  • 333
    原创
  • 1,213
    排名
  • 808
    粉丝
关注
提问 私信

个人简介:22年IT工作经验,曾在华为、HP、移动、电网等国内外知名IT企业任职;关注领域包括证券、航空、制造、电信、电网等。在数据库开发和优化、大数据平台、数据仓库、系统架构、数据治理、数据分析、大中型项目管理、部门管理等方面有一定研究,从0到1完成PB级大数据平台规划、架构、模型、建设、应用。

  • 加入CSDN时间: 2002-08-12
博客简介:

不胜人生一场醉

博客描述:
天下风云出我辈,一入江湖岁月催。 皇图霸业谈笑中,不胜人生一场醉。
查看详细资料
  • 3
    领奖
    总分 292 当月 12
个人成就
  • 博客专家认证
  • 获得130次点赞
  • 内容获得709次评论
  • 获得730次收藏
创作历程
  • 37篇
    2022年
  • 77篇
    2021年
  • 14篇
    2020年
  • 1篇
    2019年
  • 4篇
    2014年
  • 4篇
    2012年
  • 26篇
    2011年
  • 68篇
    2010年
  • 135篇
    2009年
成就勋章
TA的专栏
  • IT业界
    21篇
  • 企业管理
    10篇
  • 你的故事我的歌
    17篇
  • 数据仓库
    55篇
  • 数据库
    99篇
  • 新书上市
    13篇
  • 艺术长廊
  • 软件工程
    2篇
  • 软件开发
    17篇
  • 项目管理
    38篇
兴趣领域 设置
  • 大数据
    hadoop
  • 数据库管理
    数据仓库
  • 人工智能
    机器学习深度学习自然语言处理
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

关于redis

Redis是一个key-value 存储系统,是跨平台的非关系型数据库。Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库,并提供多种语言的 API。Redis 通常被称为数据结构服务器,因为值(value)可以是字符串(String)、哈希(Hash)、列表(list...
原创
发布博客 2022.05.07 ·
152 阅读 ·
0 点赞 ·
0 评论

关于Excel表操作-通过gensim实现模糊匹配

gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF,LDA,LSI等模型转换成向量模式,此外,gensim还实现了word2vec,能够将单词转换为词向量。gensim的一些常见概念:语料Corpus: 一组原始文本的集合,用于无监督地训练文本主题的隐层结构,语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如...
原创
发布博客 2022.05.02 ·
45 阅读 ·
0 点赞 ·
0 评论

关于Excel表操作-通过Fuzzywuzzy实现模糊匹配

Fuzzywuzzy 是一款可以对字符串模糊匹配的工具, 它使用 Levenshtein Distance 来计算出那些易用包中序列之间的差异。Levenshtein Distance算法,又叫 Edit Distance算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编...
原创
发布博客 2022.05.01 ·
53 阅读 ·
0 点赞 ·
0 评论

关于Excel表操作-通过Excel类封装进行操作

OpenPyXL 是个读写 Excel 2010 xlsx/xlsm/xltx/xltm 的 Python 库,简单易用,功能广泛,单元格格式/图片/表格/公式/筛选/批注/文件保护等等功能应有尽有,图表功能是其一大亮点。OpenPyXL 几乎可以实现所有的 Excel 功能,而且接口清晰,文档丰富,学习成本相对较低。import openpyxlimport os...
原创
发布博客 2022.04.30 ·
693 阅读 ·
0 点赞 ·
0 评论

关于Excel表操作-写入数据库操作

Excel表要写入数据库,毕竟通过pandas来操作复杂的数据还是很有难度的,有多少种数据库,就有多少种数据库引擎,要下载多少python数据库包,同样对Excel写入数据库的操作,可以基于excel按行写入,也可以通过pandas处理,但pandas处理效率不高。基于openpyxl写入数据的操作包括,以下几步1、基于表名构造一个绑定变量的SQL2、读取excel表,转...
原创
发布博客 2022.04.29 ·
991 阅读 ·
0 点赞 ·
0 评论

关于Excel表操作-合并文件操作

最近有点忙有点烦,天天忙于数据治理,说是数据治理,整天就是忙于整理和下发各种表格,从开始下发到各地区的表格合并进来,再到入库,再到比对,再到分离下发,再到按字段拆分,从xlrd,lxlwr,openpyxl,pandas,再到cx_Oracle,再到fuzzywuzzy,gensim等等,从最初的流水版本进化到封装成类,挺繁琐的,不过也挺好玩的。整个文件的资源目录结构如下...
原创
发布博客 2022.04.28 ·
7 阅读 ·
0 点赞 ·
0 评论

帮老婆系列-从客服数据中提取工单号、工号等关键字

正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要提取出我们想要的内容就易如反掌了,本文是为了减轻老婆的工作写的一个小小的场景。 正则表达式的大致匹配过程是: 1.依次拿出表达式和文本中的字符比较, 2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。...
原创
发布博客 2022.04.27 ·
20 阅读 ·
0 点赞 ·
0 评论

帮老婆系列-关于计算Excel表去除指定时间段后的时间差

老婆给了个小小的任务,说是把工单的有效流转时长给计算出来,工单的有效流转时长=工单的开始时间-工单的结束时间-非工作时间段,看起来很简单的一件事情,耗费了我好几个小时,又用了个把小时用python实现了一遍。首先数据是Excel表,自然首先想到的是Excel函数,Excel函数的缺点是日期计算和时间计算是分开的,想了一下还是从网络上找一些现成的公式吧,找了十几个公式,测试...
原创
发布博客 2022.04.25 ·
441 阅读 ·
0 点赞 ·
0 评论

关于OpenCV for Python入门-face_recognition实现人脸识别

face_recognition是世界上最简洁的人脸识别库,你可以使用Python和命令行工具提取、识别、操作人脸。face_recognition的人脸识别是基于业内领先的C++开源库 dlib中的深度学习模型,用Labeled Faces in the Wild人脸数据集进行测试,有高达99.38%的准确率。但对小孩和亚洲人脸的识别准确率尚待提升。face_recog...
原创
发布博客 2022.04.06 ·
951 阅读 ·
0 点赞 ·
0 评论

关于OpenCV for Python入门-dlib实现人脸检测

Dlib 是用编程语言 C ++编写的通用跨平台软件库。它的设计深受来自契约式设计和基于组件的软件工程的思想的影响。因此,首先也是最重要的是一组独立的软件组件。这是一个加速软件许可证下发布的开源软件。Dlib包含用于处理网络,线程,图形用户界面,数据结构,线性代数,机器学习,图像处理,数据挖掘,XML 和文本解析,数值优化,贝叶斯网络以及许多其他任务的软件组件。近年来,许...
原创
发布博客 2022.04.05 ·
2262 阅读 ·
0 点赞 ·
0 评论

关于OpenCV for Python入门-DNN模块+MobileNet-SSD实现人脸检测

OpenCV DNN模块支持常见得对象检测模型SSD, 以及它的移动版Mobile Net-SSD,特别是后者在端侧边缘设备上可以实时计算,基于Caffe训练好的mobile-net SSD支持20类别对象检测。在Caffe训练好的mobile-net SSD中内置了"background","aeroplane", "bicycle","bird","boat","bo...
原创
发布博客 2022.04.01 ·
3494 阅读 ·
0 点赞 ·
0 评论

关于OpenCV for Python入门-DNN模块实现人脸检测

OpenCV在OpenCV增加了DNN模块,DNN模块可以加载预先训练好的Caffe/tensorflow等模型数据,基本支持所有主流的深度学习框架训练生成与导出模型数据加载。下面用到的SSD人脸检测器的骨干网络是REsNet-10,当前它提供了两个训练好的模型:基于深度学习框架caffe训练的模型(原始Caffe实现的16位浮点型版本)和基于TensorFlow训练的模...
原创
发布博客 2022.03.31 ·
3728 阅读 ·
0 点赞 ·
3 评论

关于OpenCV for Python入门-自带人脸识别工具测试

前文提到了OpenCV自带的人脸分类器,虽然准确度一般,但是含着泪也要把工作做完,巧了,OpenCV还提供了三种人脸识别算法(Eigenfaces、Fisherfaces、LBPH),这几种算法各有各的特点,识别率也一般。OpenCV有三种人脸识别的算法:Eigenfaces 他是通过PCA来处理的。PCA是计算机视觉中用的较多的数学概念。它的本质是,识别某个训练集上的主...
原创
发布博客 2022.03.25 ·
3253 阅读 ·
0 点赞 ·
0 评论

关于OpenCV for Python入门-自带人脸检测算法比较

本来学习OpenCV的目的就是为了做人脸识别、车辆识别、人群计数等等,识别人脸首先要进行人脸检测,OpenCV中内置了Haar Cascade人脸分类器,其中包括haarcascade_frontalface_alt、haarcascade_frontalface_alt_tree、haarcascade_frontalface_alt2、haarcascade_fron...
原创
发布博客 2022.03.24 ·
167 阅读 ·
1 点赞 ·
0 评论

关于OpenCV for Python入门-图片和摄像头显示

OpenCV和Python结合的学习资料不多,网上的资料更是鱼目混杂,推荐大家OpenCV官方教程中文版 for Python,建议自行下载。其实也算不上原创,多方摘取学习,是opencv学习的开始。OpenCV三个最核心和常用的模块core:核心模块,主要包含了OpenCV中最基本的结构(矩阵,点线和形状等),以及相关的基础运算/操作。imgproc:图像处理模块,包含...
原创
发布博客 2022.03.23 ·
203 阅读 ·
1 点赞 ·
0 评论

关于flask入门教程-ajax+echarts实现大屏展示

陆陆续续写了一个系列的flask入门教程了,最后以一个半成品大屏做个了结,也算是一段时间的成果吧,毕竟不是专业码农,只是爱好而已,还有很多其他的事情等待探索。大屏用到的技术主要包括标准的H...
原创
发布博客 2022.03.12 ·
114 阅读 ·
1 点赞 ·
0 评论

关于flask入门教程-ajax+echarts实现关系图

关系图,从字面上可以看出,为关系的图形,既然为关系,那么就需要有点以及关系,用来表示点与点之间的联系。所以我们可以得出:关系图需要两个必要的元素,节点,关系,其中关系需要包含有联系的节点以...
原创
发布博客 2022.03.11 ·
444 阅读 ·
0 点赞 ·
0 评论

关于flask入门教程-ajax+百度地图实现热力图

热力图是通过密度函数进行可视化用于表示地图中点的密度的热图。它使人们能够独立于缩放因子感知点的密度。前文也讲了关于max、pointsize、blursize这几个值一直也没找到最合适的处...
原创
发布博客 2022.03.10 ·
1325 阅读 ·
0 点赞 ·
0 评论

关于flask入门教程-ajax+echarts实现地图热力图

热力图是通过密度函数进行可视化用于表示地图中点的密度的热图。它使人们能够独立于缩放因子感知点的密度。以上是传统的热力图定义,现今热力图在网页分析、业务数据分析等其他领域也有较为广泛的应用。...
原创
发布博客 2022.03.09 ·
53 阅读 ·
0 点赞 ·
0 评论

关于flask入门教程-ajax+echarts实现地图散点图

地图散点,是在地图的基础上,用点的大小、颜色深浅等元素显示相关数据的大小和分布情况,可以让人一眼尽收眼底,做到心中有数。地图散点常被用于资源、人口、经济分布的显示。echarts实现地图散...
原创
发布博客 2022.03.08 ·
36 阅读 ·
0 点赞 ·
0 评论
加载更多