![](https://img-blog.csdnimg.cn/direct/41d1d128bfa94f529925b6d032a7e6a3.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据分析
文章平均质量分 56
在数字时代,数据已经成为企业决策、产品优化以及市场洞察的重要基石。
1.本专栏内容特色如案例分析、观点分享等;
2.本专栏价值如提升技能、建立人脉、拓宽视野、职业发展等
让我们一起携手共进,用数据驱动未来!
xsimah
再见少年拉满弓,不惧岁月不惧风。
1.近4篇专利、科技先进工作者、E类人才,通过高项等;
2.参与管理6+人数据分析(AI)团队;
3.多次荣获数据分析模型比赛单位一等奖、作品一等奖/三等奖、个人一等奖等;
展开
-
【python011】经纬度点位可视化html生成(有效方案)
1.熟悉、梳理、总结项目研发实战中的`Python`开发日常使用中的问题、知识点等,如获取省市等边界区域经纬度进行可视化,从而辅助判断、决策。2.欢迎点赞、关注、批评、指正,互三走起来,小手动起来!原创 2024-06-21 09:29:04 · 1515 阅读 · 0 评论 -
【python010】获取任意多边形区域内的经纬度点并可视化
1.熟悉、梳理、总结项目研发实战中的Python开发日常使用中的问题、知识点等,如获取任意多边形区域内的经纬度点并可视化,找了N篇文章没发现有效的解决方案。原创 2024-06-05 17:52:27 · 1271 阅读 · 1 评论 -
【python009】Python处理某区域边界经纬度数据至geohash
1.熟悉、梳理、总结项目研发实战中的Python开发日常使用中的问题、知识点等,如Python处理某区域边界经纬度数据至geohash,便于时空交集。原创 2024-06-04 16:11:44 · 859 阅读 · 0 评论 -
【Maxcompute】数据封装json、根据经纬度计算距离、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如模型结果等封装json格式、根据经纬度计算距离udf、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf、函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-04 15:44:40 · 639 阅读 · 0 评论 -
【Maxcompute】解析身份证、计算年龄、查看python版本、字段聚合、手机号校验udf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如通过Python实现解析身份证、计算年龄、查看python版本、字段聚合、手机号校验等UDF函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-04 14:54:42 · 199 阅读 · 0 评论 -
【Maxcompute】bd09、gcj02、wgs84经纬度坐标系转换udf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如经纬度坐标系转换UDF函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 23:53:21 · 169 阅读 · 0 评论 -
【Maxcompute】实现根据gps数据计算停留点udaf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如根据gps轨迹数据计算停留点信息。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 15:02:01 · 545 阅读 · 1 评论 -
【Maxcompute】geohash转经纬度,经纬度转geohash,计算geohash九宫格
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如geohash转经纬度,经纬度转geohash,计算geohash九宫格等。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 12:07:49 · 917 阅读 · 0 评论 -
【scikit-learn002】朴素贝叶斯(Naive Bayes)ML模型实战及经验总结(最近更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架朴素贝叶斯机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:07:08 · 172 阅读 · 0 评论 -
【scikit-learn005】支持向量机(Support Vector Machines, SVM)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架支持向量机(SVM)模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:12:35 · 278 阅读 · 0 评论 -
【scikit-learn006】随机森林(Random Forest)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架随机森林模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!随机森林ML模型实战及经验总结目录索引如下所示:1.环境搭建2.实操训练3.经验总结4.参考链接原创 2024-05-15 08:15:43 · 217 阅读 · 0 评论 -
【scikit-learn004】决策树(Decision Trees)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架决策树(CART)机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:11:21 · 436 阅读 · 0 评论 -
【scikit-learn008】DBSCAN基于密度聚类ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架DBSCAN密度聚类机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:18:28 · 205 阅读 · 0 评论 -
【scikit-learn001】逻辑回归(Logistic Regression)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!逻辑回归ML模型实战及经验总结目录索引如下所示:1.环境搭建2.实操训练3.经验总结4.参考链接原创 2024-05-15 08:03:47 · 195 阅读 · 0 评论 -
【scikit-learn003】K近邻ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架K近邻机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!K近邻ML模型实战及经验总结目录索引如下所示:1.环境搭建2.实操训练3.经验总结4.参考链接原创 2024-05-15 08:09:24 · 264 阅读 · 0 评论 -
【scikit-learn007】主成分分析(Principal Component Analysis, PCA)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架主成分分析(Principal Component Analysis, PCA)机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:24:35 · 149 阅读 · 0 评论 -
nlp-fasttext实战短文本分类(携程酒店评论数据)
FastText主要用于词向量训练和文本分类任务中,因为速度快和效果明显被广泛应用于工业界中。日常项目研发中涉及到文本多分类,博主通过快速实验积累相关领域知识、技术;从而夯实个人研发方法论。通过实验对比分析感受fasttext和朴素贝叶斯的效果与区别。原创 2022-12-22 00:00:05 · 906 阅读 · 0 评论 -
【kettle011】kettle访问PostgreSQL数据库并处理数据至execl文件(已更新)
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下PostgreSQL数据库相关知识体系。3.欢迎批评指正,跪谢一键三连!原创 2024-05-05 23:34:35 · 172 阅读 · 1 评论 -
【superset】基于MySQL的BI数据分析可视化实战案例(已更新)
1.熟悉、梳理、总结下superset可视化分析实战案例知识体系,一直想探索有效可用的可视化分析方案,大多收费或不好用,这里,借此机会总结、更新下。2.欢迎批评指正,跪谢一键三连!原创 2024-05-05 23:21:14 · 521 阅读 · 1 评论 -
【kettle010】kettle访问RabbitMQ中间件并处理数据至execl文件(最近完善中)
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下RabbitMQ中间件相关知识体系。3.欢迎批评指正,跪谢一键三连!原创 2024-05-04 17:46:36 · 117 阅读 · 1 评论 -
基于人工智能的机动车号牌检测与推理系统v1.0
基于人工智能的机动车号牌检测与推理系统v1.0代码重构与实现。目前整合3中现有算法,并完成阶段性改造,包括【传统方法检测车牌,SVM推理字符】、【YOLO方法检测车牌,SVM推理字符】、【YOLO方法检测车牌,CNN推理字符】,后续将进行AI算法新增、新特性引入、AI算法迭代优化与升级等。原创 2024-04-21 03:23:27 · 312 阅读 · 0 评论 -
数据整合-全新全国各地机动车牌号归属地
数据挖掘常用码表数据清洗整合积累,如全新全国各地机动车牌号归属地数据集合。原创 2024-02-23 21:03:54 · 176 阅读 · 0 评论 -
Unsupported format, or corrupt file: Expected BOF record; found b‘[Localiz‘
写在前面批量解析execl文件,循环异常停止,报错RT异常定位耗费较多时间,大多无果,特此记录问题解决异常描述:xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '\xd6\xb8\xb1\xea\\\xc8\xd5\xc6'Unsupported form...原创 2020-04-25 16:41:21 · 9332 阅读 · 0 评论 -
Flask python3 UnicodeEncodeError 'ascii' codec can't encode characters in position
写在前面Python Web项目开发过程中遇到的重大Bug,项目已进行80%,Deadline最迟当天,,,历史版本发布无异常,可能是安装前端软件导致编码等环境异常尝试各种方法、几近抓狂近8小时问题详情Flask Web项目,包含中文注释、查询Oracle数据库返回字段包含中文无效尝试总结如下:重启发布,无效去掉代码中的所有中文,无效设置环境变量LANG,无效expo...原创 2020-04-20 13:33:30 · 1087 阅读 · 1 评论 -
python访问oracle内网搭建,linux环境(1)
写在前面针对10万内数据完成特定目标统计,并定时更新。真的是开发2分钟,环境搭建2小时,,,依据实际经验,搭建环境往往是较为繁琐、费时的!搭建步骤1 软件包准备黄色部分表示待下载软件包,Linux系统默认集成Python22 安装并配置 oracle-instantclientrpm -ivh oracle-instantclient11.2-basic-11....原创 2020-03-26 20:59:05 · 1379 阅读 · 4 评论 -
ValueError: cannot convert float NaN to integer解决办法
写在前面数据处理过程中,数值型和字符串型转换经常遇到空值 / NaN值处理,稍许浪费多些时间,特此总结多次遇到,必要总结问题描述整型数据 -> (自动转换)浮点型数据,后缀类型自动转换多余 .0样例数据处理方法方法1: 手动转换数据类型再处理final_results['float_id'] = final_results.float_id.astype('s...原创 2020-03-17 19:40:03 · 29204 阅读 · 1 评论 -
7位号段、运营商、归属地数据爬取与解析
写在前面批量获取与解析单个爬取,数据量大,难度大多线程、url禁止访问,,,映射数据查询网站较多,多为单个查询存在错误映射数据爬取与解析import reimport timeimport randomimport requestsimport warningsimport datetimeimport pandas as pdfrom numpy...原创 2020-02-22 15:53:19 · 945 阅读 · 0 评论 -
号段、运营商辅助数据爬取与解析
写在前面数据分析场景需要该类字典数据大多网站不全、未更新,脑壳疼,,,废话省略搜可用站点、撸代码、解析数据必备信息爬取与解析import reimport timeimport randomimport requestsimport warningsimport datetimeimport pandas as pdfrom numpy import NA...原创 2020-02-22 15:20:11 · 728 阅读 · 0 评论 -
批量处理DataFrame行数据(pandas)
写在前面批量处理 pandas.DataFrame 行列数据20200212,效率不怎么高代码实现方法1: 按列格式化处理数据import reimport numpy as npimport pandas as pd"""只要字符串中的中文,数字"""def hq_zw_zm_sz(ss): if ss is not None and (ss is no...原创 2020-02-12 16:15:00 · 3968 阅读 · 0 评论 -
最新行政区划码表数据csv
写在前面数据码表,脚本解析并整合行政区划编码,使用时请更新最新链接目标任务产出结果1省编码/ 市编码/ 省名称/ 市名称示例数据产出结果2省编码/ 市编码/ 区县编码/ 省名称/ 市名称/ 区县名称示例数据实现代码产出结果1import requestsimport warningsimport pandas as pdfrom bs4...原创 2020-02-11 14:23:15 · 2428 阅读 · 0 评论 -
利用Python读取网络数据文件
场景在实践机器学习算法过程中,有的数据源可以通过网络获取。于是,想利用Python代码直接加载到程序中,省去下载的操作。一方面是可能是由于懒,另一方面还可以秀一下“肌肉”,哈哈哈 …作为一名实在的假“程序猿”,手动下载资源如果被小弟们看到,太跌份儿不是!开发工具 Anaconda 2Python 3描述在贝叶斯分类器学习过程中,积累了问题。文章涵盖以下3方面内容:原创 2018-01-30 21:07:28 · 13967 阅读 · 0 评论 -
Python爬虫系列之四:利用Python爬取PyODPS页面并整合成PDF文档
文章架构开发场景在日常开发过程中, 经常需要参考一些文档。对于在线文档,往往由于网速等原因,用起来总不是那么(ma)顺(fan)心。博文以爬取 PyODPS Docs 为例,整理页面爬取、转换(PDFKit)、文档整合(PyPDF2)的过程。开发工具 AnacondaPython 2实现方案基于 bs4 模块标签解析 爬取页面,逐层获取获取子链接弃原创 2018-02-03 19:30:48 · 1186 阅读 · 1 评论 -
Python爬虫系列之三:根据名称爬取经纬度信息并Geohash编码
1 开发场景安装geohash模块并根据经纬度计算geohash值.爬取某些名称(地名)的经纬度等信息.开发语言及工具 Python 2Anaconda mzgeohash 安装包(tar.gz)下载 / 安装 Link 1源码下载 / 安装 Link 2注意: 个人尝试,mzgeohash支持Python 2, Python 3 下会提示语法错误. 为了便于使用,开发原创 2018-01-27 22:32:28 · 6422 阅读 · 4 评论 -
apply函数处理多列series数据及时间字符串转timestamp
文章架构 场景描述数据挖掘过程中, 会遇到处理/加工多列(series)的需求。例如,计算某些选择列的和、拼接某些列组成新的列(用于筛选比较)等。博文通过小例子,给出解决上述需求的实现过程。有的时候,一些数据需要根据实现排序取最新的,因此文章也涉及将时间串转换为 timestamp 的过程,在此文中一并记录。Demo实验apply 函数的使用与计算# ...原创 2018-03-07 00:22:18 · 2005 阅读 · 1 评论 -
Python爬取顶级域名(根域名)数据
主框架 场景描述数据分析/挖掘过程中,某些场景利用 根域名数据 进行数据筛选 。在利用 Python 处理本地文件。顶级域名数据获取方式方式 1 Python 2 urllib2.urlopen() 方法import pandas as pdimport urllib2from bs4 import BeautifulSoupurl='h...原创 2018-02-27 19:28:22 · 2926 阅读 · 0 评论 -
利用 Python 计算MD5值
文章架构 目的日常开发中,经常涉及到针对某些值进行加密的情况(隐私信息,例如密码等信息)。利用 Python 某些模块将 DataFrame(pandas)某列进行MD5加密处理很方便。利用Python 3 与 Python 2中不同模块处理之间的差异(例如,Python2 MD5模块与Python 3 hashlib模块)。加密方式hashlib 模...原创 2018-03-20 18:59:34 · 38399 阅读 · 1 评论 -
jupyter pyspark 开发环境搭建(在线、离线)
应用场景在Jupter中,使用 Python语言进行数据分析是一种潮流/趋势。如何在 Jupyter 中引入 Spark ,从而进行大数据清洗、挖掘等是值得研究的问题。技术方案的选择有很多,然由于多方面原因终究要探索出适合自己的~实现方案方案 1 利用 Apache Toree 在Jupyter 中引入 Spark, 从而建立Scala,PySpark,SparkR...原创 2018-04-07 18:28:51 · 4723 阅读 · 2 评论 -
gpx文件解析 Demo
GPX (the GPS Exchange Format)WHAT IS GPX? GPX (the GPS Exchange Format) is a light-weight XML data format for the interchange of GPS data (waypoints, routes, and tracks) between applications and W...原创 2018-07-13 00:49:00 · 10414 阅读 · 0 评论 -
Python性能优化技巧(一)
写在前面运行环境jupyter最近在处理大数据量问题,强化下Python性能优化方面的能力。个人总结便于后续掌握与使用,仅供参考。后续待更( 深入学习 ) …1. 循环之外能实现逻辑,不放在循环内处理 [2.22倍] :a = range(10000) size_a = len(a) %timeit -n 1000 for i in a: k = len(a) %ti...原创 2018-10-08 17:43:02 · 685 阅读 · 0 评论 -
行政区划编码映射关系-数据处理
写在前面在算法研发过程中,通常需要各类的基础数据。例如,下文中将要提到的行政区划编码与行政区划中文名。针对基础数据,如果处理不好,可能会对算法结果产生意想不到的影响。其中,行政区划翻译表中缺少地级市等行政编码,直接导致证件轨迹统计补全等问题,从而影响算法的准确性等行政区划2017年12月中华人民共和国县以上行政区划代码1. 析取数据import requests...原创 2020-03-27 09:20:52 · 1376 阅读 · 2 评论