自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 requests爬取豆瓣电影top250

代码import requestsfrom lxml import etreefrom concurrent.futures import ThreadPoolExecutorclass Crawl_douban(object): # 设定初始化方法,并设置实例变量header、page_url(list类型)分别记录爬虫的请求头和目标抓取页的url def __ini...

2019-10-23 16:19:19 678

原创 requests练手,从贝壳网上爬取深圳各地区的租房信息(多线程+多进程爬取)

话不多说直接上代码这是将数据导入到MySQL数据库中的代码import mysql.connectorclass HandleMySQL(object): def __init__(self): # user和password要根据自己电脑设置的去写, # 用这段代码之前一定要先创建一个数据库,名为crawl_beike self.connect...

2019-10-22 16:48:05 396

原创 Linux入门

学习Linux控制台(Console)命令行(Command Line)控制台(Console)tty0-tty6(快捷键Ctrl + Alt + [F1-F6])默认tty0也就是图形界面命令行(Command Line)aaa@BBB: ~$(#)aaa表示用户,BBB表示电脑名称,~表示所在位置,$表示普通权限,#表示root权限通过sudo su命令,输入密码后,可以将普通...

2019-10-22 16:14:41 506 1

原创 request练手,从51job爬取全国python岗位信息升级版,使用多进程加速爬取速度

使用的IDE工具:pyCharm首先创建一个python项目,然后创建一个python Package,我的Package名是learn_crawl_51job,你们可以自己命名哈然后在此目录下新建一个python文件,我命名为crawl_51job.py然后代码如下:# 导入要用的包import requestsimport multiprocessingfrom lxml i...

2019-10-20 17:33:25 287

原创 requests实战练手,使用bs4和XPath爬取51job职位信息

实战练习第一步先打开51job网址,然后搜索python获取他的url,就是下图画红线的部分啦使用BS4就先简单的演示一下爬取第一页的内容吧# 导包import requestsfrom bs4 import BeautifulSoup# 获取目标网址url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,...

2019-10-13 17:25:00 464

原创 Python selenium模块

selenium库啥是seleniumselenium在爬虫中的应用selenium库的安装driver下载地址元素定位方法浏览器交互方法实操小例子啥是seleniumselenium是用于Web应用程序自动化测试工具,就像真正的用户在操作一样浏览器一样,驱动浏览器执行特定的动作,如点击、下拉、输入文本等操作。selenium在爬虫中的应用在获取动态页面中的数据,有一些动态的数据在获取源...

2019-10-11 15:07:35 158

原创 XPath知识点

文章目录什么是XPathXPath路径表达式XPath函数Python lxml模块安装lxml库实操例子什么是XPathXPath为XML路径语言,可以用于定位XML文本的节点,但实际上也适用于定位HTML中的节点。在HTML中,节点就是一个个HTML标签。分析节点间的关系也就是要清除HTML文档中农各个标签的关系。XPath路径表达式使用路径表达式来选取XML或HTML的节点或节点集...

2019-10-07 13:10:38 184

原创 BeautifulSoup模块

BeautifulSoup模块

2019-09-29 22:32:50 122

原创 re模块

re模块

2019-09-28 18:56:19 149

原创 CentOS 7下 使用yum 安装MongoDB4.0数据库

vim /etc/yum.repos.d/mongo.reponame=MongoDB Repositorybaseurl=https://repo.mongodb.org/yum/redhat/7Server/mongodb-org/4.0/x86_64/gpgcheck=0enabled=1yum -y install mongodb-orgvim /etc/mongod.con...

2019-09-26 17:12:22 228

原创 入门CentOS 7、配置网卡信息、使用secureCRT(详细过程)

CentOS入门为什么选择CentOS操作系统Ubuntu和CentOSUbuntuCentOS下载CentOS 7配置网卡信息安装yum管理包和secureCRT连接工具Yum使用secureCRT工具操作虚拟机secureCRT概述下载secureCRT工具如何建立连接为什么选择CentOS操作系统Ubuntu和CentOSUbuntu有着靓丽的用户界面,完善的包管理系统,强大的...

2019-09-25 19:06:15 587

原创 Linux入门,强大的“find宿管”和在大学点名的“locate教授”

查找命令locate和findlocate用法缺点解决方法强大的find用法何处何物按文件名查找-name按文件大小查找-size按最近访问时间查找-atime按文件类型查找-type做什么locatelocate 的意思是定位,它的功能就是搜索包含关键字的所有文件和目录用法locate [option]... pattern...缺点刚创建的文件用locate查询不到(24个小时后才...

2019-09-19 23:36:33 130

原创 Linux入门,RTFM阅读那该死的手册

不懂就问一问'男人' man命令显示使用手册NAMESYNOPSISaproposman的替代品不要再问了,问就是RTFM.man命令显示使用手册不懂哪里就问问那个’男人’man 后面接要显示使用手册的命令名字例如显示ls命令的使用手册在终端输入man ls命令就会显示如下图所示的界面,最重要的三个区域:NAMESYNOPSISDESCRIPTIONNAME顾名思义 ...

2019-09-19 18:13:50 381

原创 Linux入门,Nano文本编辑器

Nano文本编辑器的简单应用Nano简单介绍启动NanoNano中的键盘快捷键Nano的参数通过.nanorc来配置Nano.bashrc配置终端.profile配置终端使配置文件立即生效Nano简单介绍Nano是一个文本编辑器,不是文本处理器纯文本格式,就是没有任何文本修饰,没有任何粗体,斜体,下划线等修饰.Nano是一款适合入门的文本编辑器启动NanoUbuntu预装了nano,要...

2019-09-19 15:32:03 1355

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除