自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 山东大学暑期实训(十)

今天将所有获得的数据导入数据库并与前端同学对接: 1、b站视频信息 2、推特文章信息 3、推特用户信息 4、微博用户信息 5、微博文章信息 对获取到的信息进行整合之后,准备进行数据库与前端的对接,项目接近尾声。 ...

2021-07-30 13:01:56 86

原创 山东大学暑期实训(九)

今天进行了线上的会议,大家交流了进度,由于宿舍搬迁放假回家的一些事情集中在一起,大家的进度比较慢,效率相较之前在学校时有一些低。 会上,前端同学展示了目前已经完成的界面,等待后端数据进行完善,负责爬虫的同学有些数据已经可以得到还有一些正在爬取中。 会上,指导教师又新增了一些网站的爬取任务,如纽约时报、世界日报等,想要对智能人物画像的刻画进一步深入,等到负责爬虫的同学完成以上网站的爬取后,我们将对数据库进行更新。 下午,我们获取了知乎用户信息,将其导入navicat: 爬取的信息包括人物的姓名、简介、教育经

2021-07-30 12:38:46 88

原创 山东大学暑期实训(八)

今天对负责爬虫的各位同学的sql文件进行了整合: 1、推特部分: tweets.sql /* Navicat MySQL Data Transfer Source Server : Tweet Source Server Version : 80011 Source Host : localhost:3306 Source Database : tweet Target Server Type : MYSQL Target Server Versio

2021-07-30 12:17:31 168

原创 山东大学暑期实训(七)

今天依旧是对数据库的运用的学习与实践,但由于还在等待数据,因此能够做的事情比较少。 由于对爬虫比较感兴趣,参考博客编写了一份简单的爬虫代码,使用scrapy框架,对b站动画区的弹幕进行了爬取: import scrapy import json import time import os import random from bs4 import BeautifulSoup class BangumiPageSpider(scrapy.Spider): name = "bangumipage"

2021-07-30 12:07:16 58

原创 山东大学暑期实训(六)

由于负责工作为数据库的管理,目前还未接收到负责数据获取同学的数据,因此在等待的这段时间内,我重新学习了有关爬虫的知识。 按照官方文档的教程,写了一个简单的页面爬取爬虫: import scrapy #创建项目 scrapy startproject tutorial # 运行 根目录下 scrapy crawl quotes class QuotesSpider(scrapy.Spider): #name: identifies the Spider. It must be unique with

2021-07-30 11:54:27 57

原创 山东大学暑期实训(五)

今天继续进行flask框架的学习,依旧是参照这篇教程:https://www.w3cschool.cn/flask/flask_http_methods.html 同时参考flask官方中文文档https://dormousehole.readthedocs.io/en/latest/quickstart.html# 编写html文件: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"&

2021-07-30 11:46:52 39

原创 山东大学暑期实训(四)

今天由导师带领,学习了flask框架的使用。 Flask是一个用Python编写的Web应用程序框架。 它由 Armin Ronacher 开发,他领导一个名为Pocco的国际Python爱好者团队。 Flask基于Werkzeug WSGI工具包和Jinja2模板引擎。两者都是Pocco项目。 其中。WSGI,Web Server Gateway Interface(Web服务器网关接口,WSGI)已被用作Python Web应用程序开发的标准。 WSGI是Web服务器和Web应用程序之间通用接口的规范。

2021-07-30 11:13:33 63

原创 山东大学暑期实训(三)

今天的内容是对项目整体框架的学习,智能人物画像综合分析系统的框架如下:

2021-07-30 11:01:22 77

原创 山东大学暑期实训(二)

继续进行环境的配置,此次项目实训所需要的环境为jdk1.8.0,mysql8.0,maven-3.381,使用idea进行开发。 由于这些环境与原来安装的版本不一致,因此需要对它们进行卸载和安装。 在重新安装mysql时出现了一些错误,其中由于中文产生乱码的错误在之前的mysql安装过程中没有遇见过,解决方式为将本机电脑名称改为英文命名,同时my.ini配置文件的内容如下: [mysql] # 设置 mysql 客户端默认字符集 default-character-set=utf8 [mysq

2021-07-30 10:37:59 77

原创 山东大学暑期实训(一)

此次暑期实训,我们的选题是"智能人物画像综合分析系统”。 用户画像是根据用户基本属性、社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。系统通过用户自行上传或埋点上报收集记录了用户大量信息,为便于各业务应用,将这些信息进行沉淀、加工和抽象,形成一个以用户标志为主key的标签树,用于全面刻画用户的属性和行为信息,构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过国内外指定网站数据获取,结合算法模型,综合分析用户行为画像,构建立体化的人物分析系统

2021-07-30 10:19:58 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除