自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (3)
  • 收藏
  • 关注

原创 json文件修改-解决:TypeError: Object of type Series is not JSON serializable

json文件修改-解决:TypeError: Object of type Series is not JSON serializable

2021-12-19 14:51:16 3326

原创 【python】实验3:根据实验2中爬取的信息,对某位一个歌手的某一首歌曲的评论内容进行处理,画出词云。

1.根据实验2中爬取的信息,对某位一个歌手的某一首歌曲的评论内容进行处理。2.分析评论中的词性分布。3.统计高频词,画出词云。QQ音乐爬取信息处理from selenium import webdriverimport csvwd=webdriver.Chrome(r'd:\chromedriver\chromedriver.exe')wd.implicitly_wait(10)'''wd.get('https://y.qq.com')#关闭打开客户端界面from time impor

2021-07-03 22:24:50 786

原创 【python】实验2项目2:使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手(陈奕迅)

请使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手(可以是任意歌手)最受欢迎的前5首歌曲的歌词、流派、歌曲发行时间、评论条数、评论时间、评论点赞次数、评论内容具体(每一首歌的评论>=500条)。QQ音乐地址https://y.qq.com/如下图所示:用CSV模块将数据存储下来(文件名:QQMusic.csv)使用Pandas模块创建5个Series,即一首歌的数据一个Series,统计每首歌的每个评论点赞次数(没有点赞则为0次),求5首歌的平均点赞次数和标准差。使用P

2021-07-03 22:19:50 1335

原创 【python】实验2项目1:使用多协程和队列,爬取时光网电视剧TOP100的数据

请使用多协程和队列,爬取时光网电视剧TOP100的数据(剧名、导演、主演和简介),并用CSV模块将数据存储下来(文件名:time100.csv)。时光网电视剧排行榜链接:http://list.mtime.com/listIndex知识点:该站点启用了cookies反爬技术,因此,需要准确复制你的headers:例如:a=’’‘Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;

2021-07-03 22:16:31 993

原创 【python】实验1项目3:文件的读写,编码和解码

文件的读写,编码和解码小练习1:# 1.分别使用gbk和utf-8编码自己的名字,并将其打印出来。 # 2.复制上一步得到的结果,进行解码,打印出你的名字(两次)。3.使用gbk解码:b’\xb4\xf3\xca\xfd\xbe\xdd2018\xbc\xb6\xbf\xba\xb0\xef\xd7\xd3’小练习2:通过文件读写命令,读取 photo1 里的数据。如下图,可以点击右键另存为photo1。然后,新建名为“photo2”的图片(在同一个文件夹),写入读到的数据,完成了图片的复制。小练习

2021-07-03 21:49:15 1705 5

原创 【python】实验1项目2:定义个名字叫Robot的类,让它具备以下功能

阅读一下代码,复习一下类的定义和实例化:class Chinese: def __init__(self,hometown,region): self.hometown = hometown self.region = region print('程序持续更新中……') def born(self): print('我生在%s。'%(self.hometown)) def live(self): pri

2021-07-03 21:42:03 889 2

原创 【python】实验1项目1:设计一个工作量计算器,基本需求如下

设计一个工作量计算器,基本需求如下:功能:a)已知项目大小、工作人数、计算出需要多少工时才能完成;b)或已知项目大小、总工时,计算要在这样的工时内完成,至少需要的人数。已知信息:标准大小的项目,需要1个人用80个工时完成(既1人工作10天完成)功能演示:a) 1.5倍标准大小的项目,一共有2个人>>>程序>>>需要60.0个工时。b) 0.5倍标准大小的项目,需要在20个工时内完成>>>程序>>>需要2.0个人力。V1.0

2021-07-03 21:39:17 2772 8

web前端 使用纯HTML,不使用CSS,利用的table布局hadoop

1、创建一个文本文件main.html,用记事本打开 2、使用table完成布局和表格部分设计,网页宽度设计为1170px; 3、复制文本,使用<font><b>等标记定义文本格式 4、复制网页链接地址 5、复制网页图片 hadoop.apache.org/releases.html

2022-11-09

spark实现财经新闻搜索引擎(正文提取、中文分词、倒排索引构建、执行搜索)

财经新闻搜索引擎 从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。 评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分 (2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据 评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分 (3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值 评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要 评分标准:25分,有交互式UI(如网页)+10分 (5)优化和执行 评分标准:shuffle优化并做对比测试+10分;第(2)

2022-03-15

大数据之贷款预测代码+超详细论文解释及结果.docx

8.贷款预测 该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。 数据集: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

2021-10-12

爬取成都链家租房信息租房基本数据信息 .docx

爬取成都链家租房信息(除 selenium 库外,其他爬取技术不限!) https://cd.lianjia.com/zufang/ 获取成都市区(锦江、青羊、武侯、高新、成华、金牛、天府新区、高新西共 8 个行政区)租房基本数据信息 爬取的内容存入 Excel 文件或 CSV 文件(可以是 2 张表,步骤 1 为一张表,步 骤 2-3 为一张表)

2021-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除