1.爬虫的过程:
(1)通过一个程序,根据url进行爬取网页,获取有用信息
(2)使用程序模拟浏览器,取向服务器发送请求,获取响应信息
2.爬虫核心:
爬取网页,包括网页中内容
解析数据,对网页中得到的数据进行分析
难点:爬虫与反爬虫的博弈
3.爬虫的用途:
数据分析、人工数据集
社交软件冷启动
舆情监控
竞争对手监控
4.urllib库(Python自带,不需安装)
5.url的组成
http80 https443 mysql3306 oracle1521 redis6379 mongdb27017
舞蹈兼职,教课兼职,会计兼职,(注册会计师、教师资格证,舞蹈工作室)
ctrl+alt+l可以将一行很长的数据变成多行
crrl+/一键加#
shutil.move()方法将文件或目录(源)递归移动到另一个位置(目标)并返回目标。
用法: shutil.move(source, destination, copy_function = copy2)
source: 代表源文件路径的字符串。
destination: 代表目标目录路径的字符串。
copy_function(可选):此参数的默认值为copy2。我们可以为该参数使用其他复制函数,例如复制,复制树等。
python中的OS模块提供了与操作系统进行交互的函数。操作系统属于Python的标准实用程序模块。该模块提供了使用依赖于操作系统的函数的便携式方法。
os.system()方法在子shell中执行命