Sadi_-CSDN博客

转载 Linux基本命令

cd 切换目录ls 显示当前目录下的文件和文件夹名称ll 显示详细信息pwd 显示当前目录路径man 命令(用于查看命令)help 命令(用于查看命令）cd ~ 回到自己的家目录mkdir 创建目录创建多层目录：mkdir -p 多级路径rm删除目录(如果目录不为空，则无法删除)-r 递归删除-f 强制删除，不提示rm...

2020-03-15 12:44:07 396

一、MongoDB简介： MongoDB是一个基于分布式文件存储的非关系型数据库，由C++语言编写，旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB将数据存储为一个文档，数据结构由键值(key,value)对组成，MongoDB文档类似于JSON对象，字段值可以包含其他文档，数组及文档数组。 MongoDB服务端可运行在Linux、Windows或mac os x平台，支...

2020-02-20 21:04:12 261

原创 python爬虫之多线程爬虫和threading模块

一、多线程爬虫（一）程序、进程和线程。程序：就相当于一个应用。进程：程序运行资源（内存资源）分配的最小单位，一个程序可以有多个进程。线程：cpu最小的调度单位，必须依赖进程而存在。线程没有独立资源，所有线程共享该进程的全部资源。线程的划分尺度比进程更小。**（二）为什么多进程和多线程可以提高程序的运行速度？** 1、提高程序的运行速度的第一种方法：提高cpu...

2020-02-18 21:07:43 675

原创 python爬虫之爬虫和反爬之战，selenium和phantomjs

一、爬虫和反爬的斗争—反爬策略1、反爬策略（1）通过user-agent客户端标识来判断是不是爬虫。解决的办法：封装请求头：user-agent(2)封ip解决办法：设置代理ip（3）通过访问频率来判断是否是非人类请求。解决的办法：设置爬取间隔和爬取策略。（4）验证码解决办法：识别验证码（5）页面数据不再直接渲染，通过前端js异步获取解决办法：a通过selenium+pha...

2020-02-17 19:37:19 1104

原创 python爬虫之lxml模块

lxml模块：python用来解析xml和html模块，用这个模块就可以使用xpath语法。**xpath（语法）就相当于一个路径一样，可以匹配html和xml想要的内容数据** 1、什么xpath？ xpath就是用来筛选html或者xml中元素语法。如果匹配标签和元素，则返回element对象，如果匹配到的是标签和text，则返回字符串 2、xml和html中一些名词。元...

2020-02-16 12:44:50 758

原创 Python爬虫之代理和正则浅谈

一、代理 **1、代理作用** （1）突破自身IP 访问限制，访问一些平时不能访问的站点。（2）访问一些单位或团体内部资源：比如使用教育网内地址段免费代理服务器，就可以用于对教育网开放的各类FTP 下载上传，以及各类资料查询共享等服务。（3）提高访问速度：通常代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息通过时，同时也将其保存到缓冲区中，当其他用户再访问...

2020-02-12 19:17:59 401

原创 Python爬虫requests模块

requests模块的get和post方法

2020-02-11 19:29:52 381

原创 python基础面试题

Python常见面试问题1.代码中要修改不可变数据会出现什么问题? 抛出什么异常?代码不会正常运行，抛出 TypeError 异常。2.4G 内存怎么读取一个 5G 的数据？3、read、readline 和 readlines 的区别?read一次性读取全部数据readline 每次读一行readlines 一次性用行的形式读返回一个列表4.在一个函数值中，如果在except中r...

2020-01-06 22:16:28 241