- 博客(6)
- 收藏
- 关注
原创 Python 网络爬虫实战1
一.什么是爬虫?爬虫是网络数据采集的程序。爬虫的过程都是由代码定义好的,大量的节省人工的成本,极大的提高数据获取效率。二.生活中的爬虫:抢票插件 搜索引擎 今日头条 本质上也是爬虫,叫专用爬虫。提供某一类信息,比如新闻、视频、资讯三.爬虫爬到的数据有什么用:资料库 把爬取到的数据存储起来,比如百度、谷歌将爬到的所有网页的网址信息都存储到服务器上,放入一个资料库,分门别类的整理 数据分析 整理成饼状图、折线图、雷达图等 人工智能 ①人物画像 ②今日头条、网易云音乐、亚马逊 ③图.
2021-11-07 14:08:18 391
原创 登录Linux系统并运行简单命令
一. 目标:能够在本地控制台访问Linux,并使用shell运行简单的命令。控制台和终端在Linux系统里面从物理端访问Linux有两种方式,一种是tty终端,另外一种是console控制台。通过终端的概念是继承了Unix保留的概念,在企业中或者是在个人使用中是很少接入终端这种设备,也就是连串口,com口的终端设备来访问Linux这样一个物理终端。大多数都是采用鼠标、键盘和显示器这样的一个设备,这个叫物理控制台。在Li...
2021-10-29 10:45:38 1007
原创 在HBase中创建学生成绩数据库
一 .这里用一个学生成绩表作为例子,对HBase的基本操作和基本概念进行讲解。下面是学生的成绩表结构。name grad course:math course:art Tom 1 87 97 Jerry 2 100 80这里grad对于表来说是一个列,course对于表来说是一个列族,这个列族由两个列组成:math和art,当然可以根据需要在course中建
2021-10-22 15:29:06 6475
原创 Java Web环境基础搭建
Java Web介绍 WEB的两个状态 WEB服务器简介Java Web,用Java技术来解决Web互联网领域的技术总和。Web包括:Web服务器和Web客户端两部分。Java在客户端的应用有Java Applet,不过使用的少,Java在服务器端的应用非常丰富。比如Servlet,JSP和第三方框架等。WEB表示Internet主机上供外界访问的资源。分为两个部分:静态WEB:指web页面中供人们浏览的数据始终不变 动态WEB:指web页面中供人们浏览的数据由程序产生的,不同时间点访问we
2021-10-18 08:51:40 138
原创 为什么学习Python
一.Why Python在2019年的TIOBE编程语言排行榜上Python排名第三,并还在上升,更是因为Python入选了2018年TIOBE编程语言排行榜的年度编程语言,它也是唯一一个三次入选年度编程语言的一个编程语言。1.入门简单,语法简洁优雅2.开发效率高( Code less, do more)3.开源,跨平台4.强大的第内置库5.丰富的第三方类库 Web:Django,Flask,Tornado 爬虫:requests,bs4,lxml,x...
2021-09-26 09:19:55 76
原创 Hadoop的基本认识
大数据的四大特征 一、数据量(Volume) 二、速度(Velocity) 三、多样性,复杂性(Variety) 四、基于高度分析的新价值(Value) 大数据带来的技术挑战 计算: 单机 ==> 集群 存储: 文件存储 ==> 分布式块存储 多副本 file 150M ==> BLOC...
2021-09-22 09:10:00 157
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人