自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 致谢

感谢几年来传授我知识的老师们,更要感谢我的家人对我学业上的支持和鼓励,感谢所有关心帮助过我的人。

2022-07-01 08:26:37 335 1

原创 结论

而爬取58同城就为人们提供了很好的服务,为人们更加快捷方便的提供服务

2022-07-01 08:24:47 937

原创 第六章 系统测试

最终爬取效果

2022-07-01 08:18:41 95

原创 第五章 系统实行

首先,打开包含我们需要的信息的网页,如图所示,网页上的习题内容很多,如果想要凭肉眼找到我们需要的信息会很麻烦。

2022-07-01 08:12:16 73

原创 第4章 系统设计

爬虫广泛使用于搜索引擎、新闻聚合以及大数据采集当中,一个良好的爬虫系统需要考虑很多方面:爬虫种子的获取需要有个稳定的任务调度机制,下载页面过程需要考虑到网页内容的生成是否是需要js渲染,请求网页是否需要设置请求头,还有请求过多会不会被对方封锁。另外就是数据处理过程,什么页面需要进行数据提取,什么页面是分裂成其它页面,还有页面内容提取需要采用什么手段:比如css selector解析,xpath解析,还有许多内容是通过json格式返回 需要解析json,还有的内容是属于xml,这就需要你都还有当获取到结果之后

2022-06-23 10:40:06 75

原创 第3章 系统分析

本章将对爬取58同城新房进行需求分析。首先对系统进行功能需求分析,分析确定系统用户角色,分析系统所要实现的功能。然后对系统进行数据需求分析,为了更好地完成系统项目,为项目的进一步开发工作做准备,了解具体数据,有利于软件的实现。最后确定系统开发环境并且从多个角度对系统进行可行性分析...

2022-06-17 10:01:34 182

原创 第2章 关键技术介绍

Python 是一种面向对象、解释型、弱类型的脚本语言,它也是一种功能强大而完善的通用型语言。

2022-06-15 10:15:35 174

原创 第1章 绪论

随着我国计算机互联网技术的飞速发展,,房屋交易系统系统的实施与建设,在技术与能力上已经日渐成熟。网上看房给人们生活带来了巨大的变化,除了购房场所的改变以外,更重要的是大大改变了传统的消费行为习惯,本课题就是研究提取新房的能力,这能极大的缩短时间,能准确的找到目标......

2022-06-10 10:48:14 954

原创 毕业论文开题报告(爬取58同城新房)

学生姓名:孙其伏所属学院:应用技术学院专业:大数据技术与应用班级:大数据(5)班学号:20203210514指导老师 姓名:张彤职称:讲师题目:爬取58同城新房选题:生产/社会,能够快速提取到有用信息为什么爬取:首先,我们从文化和民众心理的角度来看,买房在中国其实已经是一种文化了,为什么这么说呢?因为对于大多数中国人而言,大家都有非常重的乡土观念,在于中国人的民族性格之中,家的概念是一个比什么都重要的事情,要有家也就必须要有房,这几乎已经成为了中国人,一个非常

2022-06-07 16:56:49 280

原创 数据的聚合与分组运算

目录一、分组与聚合的原理二、groupby()方法拆分成组三、数据集合1,分组与聚合的原理2,groupby()方法拆分成组3,数据集合

2022-05-17 21:08:23 71

原创 Numpy

Numpy是Python中科学计算的核心库,NumPy这个词来源于Numerical和Python两个单词。它提供了一个高性能的多维数组对象,以及大量的库函数和操作,可以帮助程序员轻松地进行数值计算,广泛应用于机器学习模型、图像处理和计算机图形学、数学任务等领域。NumPy中定义的最重要的对象是称为ndarray的N维数组类型,它是描述相同类型的元素集合。ndarray中的每个元素都是数据类型对象(dtype)的对象。ndarray中的每个元素在内存中使用相同大小的块。...

2022-03-06 14:42:17 126

原创 第6章 函数

sort函数定义:sort(cmp=None, key=None, reverse=False)sorted函数定义:sorted(iterable, cmp=None, key=None, reverse=False)参数解析:iterable:是可迭代类型;cmp:用于比较的函数(大于时返回1,小于时返回-1,等于时返回0),比较什么由key决定,有默认值,迭代集合中的一项;key:用列表元素的某个属性和函数进行作为关键字,有默认值,迭代集合中的一项;reverse:排序规则. revers

2021-12-19 21:18:11 67

原创 第7章 文件与数据格式化

文件数据的抽象和集合基本理解存储在存储器上的数据序列数据存储的一种形式有文本文件和二进制文件两种形式文本文件由单一特定编码组成的文件,如UTF-8编码二进制文件直接由比特0和1组成打开与关闭<变量名> = open(<文件名>, <打开模式>) ,<变量名>.close()打开模式读取与写入line = line.replace("\n","") 、 ls.append(line.split(","))一维数据维度:一组数据的组

2021-12-19 21:17:22 66

原创 第5章 组合数据类型

组合数据类型大纲:1.组合数据类型的基本概念组合数据类型:能够表示多个数据的类型称为组合数据类型常见的三大组合数据类型:(1)集合类型 (2)序列类型 (3)映射类型集合类型概述:包含0个或多个数据项的无序组合,用{}表示,集合中的元素可以动态增加或删除,集合中元素不能重复,元素类型只能是不可变数据类型。集合类型与数学中的集合概念一致。例:注:set(x)函数可以把其他数据类型变成集合类型(无序)错误:表格中是clear不是clean序列类型概述(一维元素向量,元素之间存在着先后顺序,

2021-12-19 21:15:50 3810

原创 第4章 字符串

Python字符串的截取python访问子字符串,使用方括号[ ]来截取字符串Python字符串拼接截取字符串的一部分与其他字段拼接Python转移字符使用特殊制字符时,用反斜杠\转义字符Python字符串运算符实例变量a值为字符串 “Hello”,变量b值为 “Python”:字符串格式化字符串格式符号python的字符串内建函数...

2021-12-19 21:15:31 166

原创 第3章 流程控制

python:包括 if 条件语句、for 循环 和 while 循环语句; continue 及 break 的用法等,无 switch 语句。if 语句以下例为例,if(…) 括号内为一表达式,当为True(即成立)时,执行对应的代码段,注意,所有条件语句后方都需加冒号 :可以有零到多个elif 部分,else 是可选的。关键字elif是else if的缩写,这个可以有效地避免过深的缩进。if … elif … elif … 序列于替代其它语言中的switch case语句。for 语句P

2021-12-19 21:15:09 62

原创 第2章 Python基础

python控制语句if语句,当条件成立时运行语句块。经常与else, elif(相当于else if) 配合使用。for语句,遍历列表、字符串、字典、集合等迭代器,依次处理迭代器中的每个元素。while语句,当条件为真时,循环运行语句块。try语句,与except,finally配合使用处理在程序运行中出现的异常情况。class语句,用于定义类型。def语句,用于定义函数和类型的方法。pass语句,表示此行为空,不运行任何操作。assert语句,用于程序调试阶段时测试运行条件是否满足。w

2021-12-19 21:10:33 114

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除