大数据分析
文章平均质量分 59
在数字时代,数据已经成为企业决策、产品优化以及市场洞察的重要基石。
1.本专栏内容特色如案例分析、观点分享等;
2.本专栏价值如提升技能、建立人脉、拓宽视野、职业发展等
让我们一起携手共进,用数据驱动未来!
xsimah
再见少年拉满弓,不惧岁月不惧风。
1.科技先进工作者、省级评审专家库、参与4篇专利、杭州E类人才;
2.参与管理6+人数据分析与挖掘(AI)团队;
3.多次带领团队荣获数据应用模型创新大赛单位一等奖、作品一等奖、个人一等奖;
展开
-
【PLW004】基于Python网络爬虫与推荐算法的新闻推荐平台v1.0(Python+Django+NLP+Vue+MySQL前后端分离)
基于Python网络爬虫与推荐算法的新闻推荐平台。网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版)推荐算法:权重衰减+标签推荐+区域推荐+热点推荐+融合推荐算法。原创 2024-09-18 21:25:07 · 719 阅读 · 0 评论 -
【ocr识别003】动物检疫合格证明单据OCR识别应用案例(已更新)
1.欢迎点赞、关注、批评、指正,互三走起来,小手动起来!2.了解、学习OCR相关技术知识领域,结合日常的场景进行测试、总结。如本文的实践:以动物检疫合格证明单据识别为例,探索OCR文本推理应用示例场景。3.有其他场景问题,欢迎留言或加微沟通。原创 2024-08-28 16:09:27 · 1013 阅读 · 0 评论 -
【ocr识别002】easyocr和paddleocr使用与对比总结(更新中)
了解、学习OCR相关技术知识领域,结合日常的场景进行测试、总结。原创 2024-08-03 00:30:06 · 115 阅读 · 0 评论 -
【ocr001】Could not locate zlibwapi.dll. Please make sure it is in your library path!(已更新)
了解、学习OCR相关技术知识领域,结合日常的场景进行测试、总结。原创 2024-08-03 00:27:42 · 112 阅读 · 0 评论 -
【python015】常见成熟AI-图像识别场景算法清单(已更新)
极视角科技是一家人工智能平台型企业,做进一步AI图像识别算法总结、学习。原创 2024-08-02 21:19:24 · 900 阅读 · 3 评论 -
【python014】Python爬取并解析潮汐天气简报-潮历数据(已更新)
1.爬取解析潮汐表数据,做进一步层次应用。2.发现大语言模型写的并不能解决问题,也可能是没付费的原因,haha3.趁着空闲的时间撸了段代码,供已参考。原创 2024-07-27 13:55:05 · 1194 阅读 · 2 评论 -
【python011】经纬度点位可视化html生成(有效方案)
1.熟悉、梳理、总结项目研发实战中的`Python`开发日常使用中的问题、知识点等,如获取省市等边界区域经纬度进行可视化,从而辅助判断、决策。2.欢迎点赞、关注、批评、指正,互三走起来,小手动起来!原创 2024-06-21 09:29:04 · 1680 阅读 · 0 评论 -
【python010】获取任意多边形区域内的经纬度点并可视化
1.熟悉、梳理、总结项目研发实战中的Python开发日常使用中的问题、知识点等,如获取任意多边形区域内的经纬度点并可视化,找了N篇文章没发现有效的解决方案。原创 2024-06-05 17:52:27 · 1365 阅读 · 1 评论 -
【python009】Python处理某区域边界经纬度数据至geohash
1.熟悉、梳理、总结项目研发实战中的Python开发日常使用中的问题、知识点等,如Python处理某区域边界经纬度数据至geohash,便于时空交集。原创 2024-06-04 16:11:44 · 931 阅读 · 0 评论 -
【Maxcompute】数据封装json、根据经纬度计算距离、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如模型结果等封装json格式、根据经纬度计算距离udf、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf、函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-04 15:44:40 · 698 阅读 · 0 评论 -
【Maxcompute】解析身份证、计算年龄、查看python版本、字段聚合、手机号校验udf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如通过Python实现解析身份证、计算年龄、查看python版本、字段聚合、手机号校验等UDF函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-04 14:54:42 · 263 阅读 · 0 评论 -
【Maxcompute】bd09、gcj02、wgs84经纬度坐标系转换udf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如经纬度坐标系转换UDF函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 23:53:21 · 228 阅读 · 0 评论 -
【Maxcompute】实现根据gps数据计算停留点udaf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如根据gps轨迹数据计算停留点信息。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 15:02:01 · 586 阅读 · 1 评论 -
【Maxcompute】geohash转经纬度,经纬度转geohash,计算geohash九宫格
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如geohash转经纬度,经纬度转geohash,计算geohash九宫格等。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 12:07:49 · 1042 阅读 · 0 评论 -
【scikit-learn002】朴素贝叶斯(Naive Bayes)ML模型实战及经验总结(最近更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架朴素贝叶斯机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:07:08 · 180 阅读 · 0 评论 -
【scikit-learn005】支持向量机(Support Vector Machines, SVM)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架支持向量机(SVM)模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:12:35 · 291 阅读 · 0 评论 -
【scikit-learn006】随机森林(Random Forest)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架随机森林模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!随机森林ML模型实战及经验总结目录索引如下所示:1.环境搭建2.实操训练3.经验总结4.参考链接原创 2024-05-15 08:15:43 · 226 阅读 · 0 评论 -
【scikit-learn004】决策树(Decision Trees)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架决策树(CART)机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:11:21 · 454 阅读 · 0 评论 -
【scikit-learn008】DBSCAN基于密度聚类ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架DBSCAN密度聚类机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:18:28 · 213 阅读 · 0 评论 -
【scikit-learn001】逻辑回归(Logistic Regression)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!逻辑回归ML模型实战及经验总结目录索引如下所示:1.环境搭建2.实操训练3.经验总结4.参考链接原创 2024-05-15 08:03:47 · 212 阅读 · 0 评论 -
【scikit-learn003】K近邻ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架K近邻机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!K近邻ML模型实战及经验总结目录索引如下所示:1.环境搭建2.实操训练3.经验总结4.参考链接原创 2024-05-15 08:09:24 · 272 阅读 · 0 评论 -
【scikit-learn007】主成分分析(Principal Component Analysis, PCA)ML模型实战及经验总结(更新中)
1.一直以来想写下基于scikit-learn训练AI算法的系列文章,作为较火的机器学习框架,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下scikit-learn框架主成分分析(Principal Component Analysis, PCA)机器学习模型相关知识体系3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!3.欢迎批评指正,欢迎互三,跪谢一键三连!原创 2024-05-15 08:24:35 · 162 阅读 · 0 评论 -
nlp-fasttext实战短文本分类(携程酒店评论数据)
FastText主要用于词向量训练和文本分类任务中,因为速度快和效果明显被广泛应用于工业界中。日常项目研发中涉及到文本多分类,博主通过快速实验积累相关领域知识、技术;从而夯实个人研发方法论。通过实验对比分析感受fasttext和朴素贝叶斯的效果与区别。原创 2022-12-22 00:00:05 · 1206 阅读 · 0 评论 -
【kettle011】kettle访问PostgreSQL数据库并处理数据至execl文件(已更新)
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下PostgreSQL数据库相关知识体系。3.欢迎批评指正,跪谢一键三连!原创 2024-05-05 23:34:35 · 353 阅读 · 1 评论 -
【superset】基于MySQL的BI数据分析可视化实战案例(已更新)
1.熟悉、梳理、总结下superset可视化分析实战案例知识体系,一直想探索有效可用的可视化分析方案,大多收费或不好用,这里,借此机会总结、更新下。2.欢迎批评指正,跪谢一键三连!原创 2024-05-05 23:21:14 · 655 阅读 · 1 评论 -
【kettle010】kettle访问RabbitMQ中间件并处理数据至execl文件(最近完善中)
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下RabbitMQ中间件相关知识体系。3.欢迎批评指正,跪谢一键三连!原创 2024-05-04 17:46:36 · 143 阅读 · 1 评论 -
【PLW001】基于AI人工智能的机动车号牌检测与推理系统v1.0(Python+YOLO+机器学习+批处理)
基于人工智能的机动车号牌检测与推理系统v1.0代码重构与实现。目前整合3中现有算法,并完成阶段性改造,包括【传统方法检测车牌,SVM推理字符】、【YOLO方法检测车牌,SVM推理字符】、【YOLO方法检测车牌,CNN推理字符】,后续将进行AI算法新增、新特性引入、AI算法迭代优化与升级等。原创 2024-04-21 03:23:27 · 329 阅读 · 0 评论 -
数据整合-全新全国各地机动车牌号归属地
数据挖掘常用码表数据清洗整合积累,如全新全国各地机动车牌号归属地数据集合。原创 2024-02-23 21:03:54 · 219 阅读 · 0 评论 -
Unsupported format, or corrupt file: Expected BOF record; found b‘[Localiz‘
写在前面批量解析execl文件,循环异常停止,报错RT异常定位耗费较多时间,大多无果,特此记录问题解决异常描述:xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '\xd6\xb8\xb1\xea\\\xc8\xd5\xc6'Unsupported form...原创 2020-04-25 16:41:21 · 9502 阅读 · 0 评论 -
Flask python3 UnicodeEncodeError 'ascii' codec can't encode characters in position
写在前面Python Web项目开发过程中遇到的重大Bug,项目已进行80%,Deadline最迟当天,,,历史版本发布无异常,可能是安装前端软件导致编码等环境异常尝试各种方法、几近抓狂近8小时问题详情Flask Web项目,包含中文注释、查询Oracle数据库返回字段包含中文无效尝试总结如下:重启发布,无效去掉代码中的所有中文,无效设置环境变量LANG,无效expo...原创 2020-04-20 13:33:30 · 1126 阅读 · 1 评论 -
python访问oracle内网搭建,linux环境(1)
写在前面针对10万内数据完成特定目标统计,并定时更新。真的是开发2分钟,环境搭建2小时,,,依据实际经验,搭建环境往往是较为繁琐、费时的!搭建步骤1 软件包准备黄色部分表示待下载软件包,Linux系统默认集成Python22 安装并配置 oracle-instantclientrpm -ivh oracle-instantclient11.2-basic-11....原创 2020-03-26 20:59:05 · 1404 阅读 · 4 评论 -
ValueError: cannot convert float NaN to integer解决办法
写在前面数据处理过程中,数值型和字符串型转换经常遇到空值 / NaN值处理,稍许浪费多些时间,特此总结多次遇到,必要总结问题描述整型数据 -> (自动转换)浮点型数据,后缀类型自动转换多余 .0样例数据处理方法方法1: 手动转换数据类型再处理final_results['float_id'] = final_results.float_id.astype('s...原创 2020-03-17 19:40:03 · 29354 阅读 · 1 评论 -
7位号段、运营商、归属地数据爬取与解析
写在前面批量获取与解析单个爬取,数据量大,难度大多线程、url禁止访问,,,映射数据查询网站较多,多为单个查询存在错误映射数据爬取与解析import reimport timeimport randomimport requestsimport warningsimport datetimeimport pandas as pdfrom numpy...原创 2020-02-22 15:53:19 · 998 阅读 · 0 评论 -
号段、运营商辅助数据爬取与解析
写在前面数据分析场景需要该类字典数据大多网站不全、未更新,脑壳疼,,,废话省略搜可用站点、撸代码、解析数据必备信息爬取与解析import reimport timeimport randomimport requestsimport warningsimport datetimeimport pandas as pdfrom numpy import NA...原创 2020-02-22 15:20:11 · 769 阅读 · 0 评论 -
批量处理DataFrame行数据(pandas)
写在前面批量处理 pandas.DataFrame 行列数据20200212,效率不怎么高代码实现方法1: 按列格式化处理数据import reimport numpy as npimport pandas as pd"""只要字符串中的中文,数字"""def hq_zw_zm_sz(ss): if ss is not None and (ss is no...原创 2020-02-12 16:15:00 · 3995 阅读 · 0 评论 -
最新行政区划码表数据csv
写在前面数据码表,脚本解析并整合行政区划编码,使用时请更新最新链接目标任务产出结果1省编码/ 市编码/ 省名称/ 市名称示例数据产出结果2省编码/ 市编码/ 区县编码/ 省名称/ 市名称/ 区县名称示例数据实现代码产出结果1import requestsimport warningsimport pandas as pdfrom bs4...原创 2020-02-11 14:23:15 · 2482 阅读 · 0 评论 -
利用Python读取网络数据文件
场景在实践机器学习算法过程中,有的数据源可以通过网络获取。于是,想利用Python代码直接加载到程序中,省去下载的操作。一方面是可能是由于懒,另一方面还可以秀一下“肌肉”,哈哈哈 …作为一名实在的假“程序猿”,手动下载资源如果被小弟们看到,太跌份儿不是!开发工具 Anaconda 2Python 3描述在贝叶斯分类器学习过程中,积累了问题。文章涵盖以下3方面内容:原创 2018-01-30 21:07:28 · 14063 阅读 · 0 评论 -
Python爬虫系列之四:利用Python爬取PyODPS页面并整合成PDF文档
文章架构开发场景在日常开发过程中, 经常需要参考一些文档。对于在线文档,往往由于网速等原因,用起来总不是那么(ma)顺(fan)心。博文以爬取 PyODPS Docs 为例,整理页面爬取、转换(PDFKit)、文档整合(PyPDF2)的过程。开发工具 AnacondaPython 2实现方案基于 bs4 模块标签解析 爬取页面,逐层获取获取子链接弃原创 2018-02-03 19:30:48 · 1206 阅读 · 1 评论 -
Python爬虫系列之三:根据名称爬取经纬度信息并Geohash编码
1 开发场景安装geohash模块并根据经纬度计算geohash值.爬取某些名称(地名)的经纬度等信息.开发语言及工具 Python 2Anaconda mzgeohash 安装包(tar.gz)下载 / 安装 Link 1源码下载 / 安装 Link 2注意: 个人尝试,mzgeohash支持Python 2, Python 3 下会提示语法错误. 为了便于使用,开发原创 2018-01-27 22:32:28 · 6452 阅读 · 4 评论 -
apply函数处理多列series数据及时间字符串转timestamp
文章架构 场景描述数据挖掘过程中, 会遇到处理/加工多列(series)的需求。例如,计算某些选择列的和、拼接某些列组成新的列(用于筛选比较)等。博文通过小例子,给出解决上述需求的实现过程。有的时候,一些数据需要根据实现排序取最新的,因此文章也涉及将时间串转换为 timestamp 的过程,在此文中一并记录。Demo实验apply 函数的使用与计算# ...原创 2018-03-07 00:22:18 · 2037 阅读 · 1 评论