数据
文章平均质量分 79
青花锁
CSDN博客专家,QS前200知名院校研究生毕业,前大厂已毕业,现任多家公司高管、技术专家。多年行业软件管理、产品管理、技术架构等方向经验,多项电商推荐系统专利,C站上现耕耘自媒体、毕设、科研等,欢迎加VX联系。
展开
-
基于大数据+Hadoop的豆瓣电子图书推荐系统实现
随着信息技术的飞速发展,特别是互联网和移动通信技术的普及,数字化阅读逐渐成为人们获取知识和信息的重要方式。在这样的背景下,电子图书以其便捷性和丰富性受到了广泛欢迎。随着电子图书市场的不断扩大,书籍的种类和数量也在急剧增加,这为用户挑选书籍带来了挑战。为了解决信息过载的问题,个性化推荐系统应运而生,并逐渐成为在线阅读平台不可或缺的一部分。基于用户历史行为数据进行推荐的协同过滤算法尤为流行。处理庞大的用户群体和海量的图书数据需要强大的计算能力,传统的单机计算模式已无法满足需求。原创 2024-05-08 09:35:11 · 1529 阅读 · 4 评论 -
大数据开发的专业术语
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。原创 2024-01-03 09:54:18 · 4291 阅读 · 80 评论 -
Spark邂逅大数据
Spark基于内存计算,整合了内存计算单元,提高了大数据处理的实时性。它兼具高容错性和可伸缩性,因此相对于Hadoop的集群处理方法,Spark在性能方面更具优势。从另一角度看,Spark可被看作MapReduce的一种扩展。在计算的各个阶段,MapReduce无法进行有效的资源共享,因此不擅长迭代式、交互式和流式的计算工作。针对这一点,Spark创造性地引入了RDD(弹性分布式数据集),实现了计算过程中的资源共享。因为采用了弹性内存分布式数据集,所以Spark不仅能提供交互式查询,还可优化迭代工作的负载。原创 2023-11-09 20:14:57 · 10092 阅读 · 39 评论 -
[数据挖掘、数据分析] clickhouse在go语言里的实践
今天给大家介绍一款OLAP大数据处理软件 clickhouse ,在业界它有一个荣誉,那就是”快“,当然此快不是开车快的意思,是指clickhouse在大数据量级的查询方面,对比Spark 、MySQL 、Hive 、Hadoop,速度有很大的提升。下面我们从clickhouse的起源、OLAP/OLTP、go语言开发实践、clickhouse的表存储引擎分析这几个方面,讲解clickhouse为何适合做大数据分析、数据挖掘,什么情况下用什么样的表引擎,以及clickhouse的缺陷等。原创 2023-10-20 12:19:03 · 36307 阅读 · 91 评论 -
Java爬虫第五篇:使用selenium、Jsoup 抓取bing搜索图片
通过自动化工具selenium模拟人工浏览bing搜索图片页面,提取出关键词,抓取图片缩略图保存到本地。原创 2023-05-23 10:39:34 · 404 阅读 · 1 评论 -
Java爬虫第四篇:使用selenium、Jsoup 抓取图片
通过自动化工具selenium模拟人工浏览器行为,并捕获到html代码,并用Jsoup 处理html代码,提取出其中的图片数据。原创 2023-05-23 10:04:52 · 601 阅读 · 0 评论 -
Java时间格式转换yyyyMMddHHmmss--yyyy-MM-dd HH:mm:ss
Java时间格式转换String reg = "(\\d{4})(\\d{2})(\\d{2})(\\d{2})(\\d{2})(\\d{2})";String date = "20190516093040";/*** yyyyMMddHHmmss-->yyyy-MM-dd HH:mm:ss**/public static String getDateStr( String ...原创 2019-05-16 08:56:24 · 3544 阅读 · 1 评论 -
Java爬虫第一篇:准备 chromedriver与chrome
chromedriver与chrome各版本及下载地址记录下使用Selenium时,遇到的chromedriver版本问题。概述我们做自动化的时候如果用的是selenium,首先要解决的就是下载不同浏览器的驱动,目前的浏览器驱动都是由各大浏览器厂商自己更新提供。运行selenium自动化脚本报错如下:org.openqa.selenium.WebDriverException: unkn...原创 2019-04-16 09:25:09 · 1640 阅读 · 1 评论