碳酸小星球Yaro-CSDN博客

原创 json文件修改-解决：TypeError: Object of type Series is not JSON serializable

json文件修改-解决：TypeError: Object of type Series is not JSON serializable

2021-12-19 14:51:16 3326

原创【python】实验3：根据实验2中爬取的信息，对某位一个歌手的某一首歌曲的评论内容进行处理，画出词云。

1.根据实验2中爬取的信息，对某位一个歌手的某一首歌曲的评论内容进行处理。2.分析评论中的词性分布。3.统计高频词，画出词云。QQ音乐爬取信息处理from selenium import webdriverimport csvwd=webdriver.Chrome(r'd:\chromedriver\chromedriver.exe')wd.implicitly_wait(10)'''wd.get('https://y.qq.com')#关闭打开客户端界面from time impor

2021-07-03 22:24:50 786

原创【python】实验2项目2：使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手（陈奕迅）

请使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手（可以是任意歌手）最受欢迎的前5首歌曲的歌词、流派、歌曲发行时间、评论条数、评论时间、评论点赞次数、评论内容具体(每一首歌的评论>=500条)。QQ音乐地址https://y.qq.com/如下图所示：用CSV模块将数据存储下来（文件名：QQMusic.csv）使用Pandas模块创建5个Series，即一首歌的数据一个Series，统计每首歌的每个评论点赞次数（没有点赞则为0次），求5首歌的平均点赞次数和标准差。使用P

2021-07-03 22:19:50 1335

原创【python】实验2项目1：使用多协程和队列，爬取时光网电视剧TOP100的数据

请使用多协程和队列，爬取时光网电视剧TOP100的数据（剧名、导演、主演和简介），并用CSV模块将数据存储下来（文件名：time100.csv）。时光网电视剧排行榜链接：http://list.mtime.com/listIndex知识点：该站点启用了cookies反爬技术，因此，需要准确复制你的headers：例如：a=’’‘Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;

2021-07-03 22:16:31 993

原创【python】实验1项目3：文件的读写，编码和解码

文件的读写，编码和解码小练习1：# 1.分别使用gbk和utf-8编码自己的名字，并将其打印出来。 # 2.复制上一步得到的结果，进行解码，打印出你的名字（两次）。3.使用gbk解码：b’\xb4\xf3\xca\xfd\xbe\xdd2018\xbc\xb6\xbf\xba\xb0\xef\xd7\xd3’小练习2：通过文件读写命令，读取 photo1 里的数据。如下图，可以点击右键另存为photo1。然后，新建名为“photo2”的图片（在同一个文件夹），写入读到的数据，完成了图片的复制。小练习

2021-07-03 21:49:15 1705 5

原创【python】实验1项目2：定义个名字叫Robot的类，让它具备以下功能

阅读一下代码，复习一下类的定义和实例化：class Chinese: def __init__(self,hometown,region): self.hometown = hometown self.region = region print('程序持续更新中……') def born(self): print('我生在%s。'%(self.hometown)) def live(self): pri

2021-07-03 21:42:03 889 2

原创【python】实验1项目1：设计一个工作量计算器，基本需求如下

设计一个工作量计算器，基本需求如下：功能：a)已知项目大小、工作人数、计算出需要多少工时才能完成；b)或已知项目大小、总工时，计算要在这样的工时内完成，至少需要的人数。已知信息：标准大小的项目，需要1个人用80个工时完成（既1人工作10天完成）功能演示：a) 1.5倍标准大小的项目，一共有2个人>>>程序>>>需要60.0个工时。b) 0.5倍标准大小的项目，需要在20个工时内完成>>>程序>>>需要2.0个人力。V1.0

2021-07-03 21:39:17 2772 8

web前端使用纯HTML，不使用CSS，利用的table布局hadoop

1、创建一个文本文件main.html，用记事本打开 2、使用table完成布局和表格部分设计，网页宽度设计为1170px； 3、复制文本，使用<font><b>等标记定义文本格式 4、复制网页链接地址 5、复制网页图片 hadoop.apache.org/releases.html

2022-11-09

spark实现财经新闻搜索引擎（正文提取、中文分词、倒排索引构建、执行搜索）

财经新闻搜索引擎从财经新闻网页数据开始，进行正文提取、中文分词、倒排索引构建、执行搜索和UI。要求技术：MapReduce或Spark；执行搜索和UI采用Spark或Java 步骤：（1）新闻正文提取，采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。评分标准：一个栏目15分（多一个栏目+5分）（25分）；使用通用算法提取不固定格式正文（不算很难）40分（2）中文分词（worldcount），将正文进行中文分词，保存每个新闻的URL、标题、正文等数据评分标准：分词并将正文存储到文件15分；存储到HBase（本地）+5分（3）倒排索引构建，将词汇、次数和文章ID构建成倒排索引和对应的TF值评分标准：计算倒排索引并存储到文本文件15分；存储到HBase（本地）+5分；计算TF值5分（4）执行搜索，对用户搜索词进行分词，从倒排索引读取对应词汇，读取TF值，读取数据计算IDF值，根据IF×IDF值对词汇对应的文章进行排序，显示排序后的正文摘要评分标准：25分，有交互式UI（如网页）+10分（5）优化和执行评分标准：shuffle优化并做对比测试+10分；第（2）

2022-03-15

大数据之贷款预测代码+超详细论文解释及结果.docx

8.贷款预测该数据集取自Analytics Vidhya，包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。数据集： https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

2021-10-12

爬取成都链家租房信息租房基本数据信息 .docx

爬取成都链家租房信息（除 selenium 库外，其他爬取技术不限！） https://cd.lianjia.com/zufang/ 获取成都市区（锦江、青羊、武侯、高新、成华、金牛、天府新区、高新西共 8 个行政区）租房基本数据信息爬取的内容存入 Excel 文件或 CSV 文件（可以是 2 张表，步骤 1 为一张表，步骤 2-3 为一张表）

2021-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹