- 博客(8)
- 收藏
- 关注
转载 Linux基本命令
cd 切换目录ls 显示当前目录下的文件和文件夹名称ll 显示详细信息pwd 显示当前目录路径man 命令(用于查看命令)help 命令(用于查看命令)cd ~ 回到自己的家目录mkdir 创建目录创建多层目录:mkdir -p 多级路径rm删除目录(如果目录不为空,则无法删除)-r 递归删除-f 强制删除,不提示rm...
2020-03-15 12:44:07 331
原创 MongoDB
一、MongoDB简介: MongoDB是一个基于分布式文件存储的非关系型数据库,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB将数据存储为一个文档,数据结构由键值(key,value)对组成,MongoDB文档类似于JSON对象,字段值可以包含其他文档,数组及文档数组。 MongoDB服务端可运行在Linux、Windows或mac os x平台,支...
2020-02-20 21:04:12 211
原创 python爬虫之多线程爬虫和threading模块
一、多线程爬虫(一)程序、进程和线程。 程序:就相当于一个应用。 进程:程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。 线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。 线程的划分尺度比进程更小。**(二)为什么多进程和多线程可以提高程序的运行速度?** 1、提高程序的运行速度的第一种方法:提高cpu...
2020-02-18 21:07:43 634
原创 python爬虫之爬虫和反爬之战,selenium和phantomjs
一、爬虫和反爬的斗争—反爬策略1、反爬策略(1)通过user-agent客户端标识来判断是不是爬虫。解决的办法:封装请求头:user-agent(2)封ip解决办法:设置代理ip(3)通过访问频率来判断是否是非人类请求。解决的办法:设置爬取间隔和爬取策略。(4)验证码解决办法:识别验证码(5)页面数据不再直接渲染,通过前端js异步获取解决办法:a通过selenium+pha...
2020-02-17 19:37:19 1039
原创 python爬虫之lxml模块
lxml模块:python用来解析xml和html模块,用这个模块就可以使用xpath语法。**xpath(语法) 就相当于一个路径一样,可以匹配html和xml想要的内容数据** 1、什么xpath? xpath就是用来筛选html或者xml中元素语法。如果匹配标签和元素,则返回element对象,如果匹配到的是标签和text,则返回字符串 2、xml和html中一些名词。 元...
2020-02-16 12:44:50 711
原创 Python爬虫之代理和正则浅谈
一、代理 **1、代理作用** (1)突破自身IP 访问限制, 访问一些平时不能访问的站点。 (2)访问一些单位或团体内部资源: 比如使用教育网内地址段免费代理服务器, 就可以用于对教育网开放的各类FTP 下载上传, 以及各类资料查询共享等服务。 (3)提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区, 当有外界的信息通过时, 同时也将其保存到缓冲区中, 当其他用户再访问...
2020-02-12 19:17:59 356
原创 python基础面试题
Python常见面试问题1.代码中要修改不可变数据会出现什么问题? 抛出什么异常?代码不会正常运行,抛出 TypeError 异常。2.4G 内存怎么读取一个 5G 的数据?3、read、readline 和 readlines 的区别?read一次性读取全部数据readline 每次读一行readlines 一次性用行的形式读 返回一个列表4.在一个函数值中,如果在except中r...
2020-01-06 22:16:28 200
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人