- 博客(18)
- 收藏
- 关注
原创 数据仓库笔记 —— LC
比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。过程中产生的数据,并发往日志服务器进行保存。用户行为数据通常存储在日志文件中。业务数据通常存储在MySQL、Oracle等数据库中。数据仓库( Data Warehouse ),是。可以帮助企业,改进业务流程、提高产品质量等。:通常是通过技术手段获取其他公司网站的数据。为企业制定决策,提供数据支持的。通过埋点收集与客户端产品交互。:用户在使用产品过程中,
2024-06-17 15:22:52
226
原创 Spark本地配置 —— LC
在浏览器中打开的Jupyter Notebook界面中,点击右上角的"New"按钮,然后选择Python来创建一个新的Notebook。这样,你就可以在你创建的Conda环境中使用Jupyter Notebook编写PySpark代码了。创建一个数据表,名称自定,并输入3行数据,数据表中的字段需要5个(含)以上。核对安装步骤与使用的python环境都是正确的,但是还在报错。解决:先打开anaconda,从界面中启动pycharm。首先确保已经在终端中激活了Conda环境。解决:哪里不行注释哪里。
2024-04-23 14:54:11
542
1
原创 数据挖掘笔记 —— LC
这个函数会计算每个类别的准确率、召回率和 F1-score 等指标,并将结果以易读的格式打印出来。每个类别都会有自己的指标,同时还会有一个加权平均的指标,用于总体评估模型的性能。是一个用于评估分类模型性能的函数,它提供了关于模型预测结果的详细信息,包括准确率、召回率、F1-score 等指标。
2024-04-18 10:55:00
242
原创 scikit-learn包的导入——LC
按照顺序安装以下几个包,可以先用uninstall卸载后按顺序安装。安装scikit-learn时报错。改名为scikit-learn。安装sklearn时报错。
2024-03-21 21:13:21
355
1
原创 网页爬取笔记
bs4能够快速提取网页中指定的内容,并将提取的内容以对象的形式返回。matplotlib、pyecharts支持各种常见的可视化展示。bs4提供解析语法,方便对html标签进行提取。pandas提供便捷的数据保存及处理方法。
2023-12-20 23:04:54
406
1
原创 数据库笔记 —— LC
报错: Can't connect to MySQL server on 'localhost:3306' (1006)使用Win+R打开搜索,输入服务。找到MYSQL或MYSQL80。右键启动,此后即可正常登录。DataGrip连接失败。
2023-12-04 21:09:22
514
原创 输入a、b,计算平均值 —— LC
结果:不超过取值范围,但会造成精度遗失,如a=1、b=1时结果为0。2147483647,b=2,结果为1073741824。输入a=1,b=1,结果为1。思路:相加过程会超过int范围,使用先取半再相加。代码:answer=a/2+b/2。改进:将数的个位与其他位分开计算。
2023-03-27 07:29:18
366
原创 计算一个数字的的长度
思路:将逐个简化变成规律性增加,发现1-9是1,10-99是2,100-999是3...且一位数的数量为9,两位数的数量为90,三位数的数量为900..,则可按照9 90 900...与对应位数相乘再累加。2.将老师的for循环的循环条件改为判断几位数,即是否比9 99 999...大,如大于则直接将之前的按位数依次累加位数和数量乘积。然后位数递增,数量十倍递增,数字减去之前的位数数量,再进行判断。分析:老师方法是正序累加循环计算,每次加一,计算位数相加,逐个计算时间太久。int c = 1;
2023-03-27 07:28:18
888
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人