- 博客(14)
- 收藏
- 关注
原创 requests爬取豆瓣电影top250
代码import requestsfrom lxml import etreefrom concurrent.futures import ThreadPoolExecutorclass Crawl_douban(object): # 设定初始化方法,并设置实例变量header、page_url(list类型)分别记录爬虫的请求头和目标抓取页的url def __ini...
2019-10-23 16:19:19 678
原创 requests练手,从贝壳网上爬取深圳各地区的租房信息(多线程+多进程爬取)
话不多说直接上代码这是将数据导入到MySQL数据库中的代码import mysql.connectorclass HandleMySQL(object): def __init__(self): # user和password要根据自己电脑设置的去写, # 用这段代码之前一定要先创建一个数据库,名为crawl_beike self.connect...
2019-10-22 16:48:05 396
原创 Linux入门
学习Linux控制台(Console)命令行(Command Line)控制台(Console)tty0-tty6(快捷键Ctrl + Alt + [F1-F6])默认tty0也就是图形界面命令行(Command Line)aaa@BBB: ~$(#)aaa表示用户,BBB表示电脑名称,~表示所在位置,$表示普通权限,#表示root权限通过sudo su命令,输入密码后,可以将普通...
2019-10-22 16:14:41 506 1
原创 request练手,从51job爬取全国python岗位信息升级版,使用多进程加速爬取速度
使用的IDE工具:pyCharm首先创建一个python项目,然后创建一个python Package,我的Package名是learn_crawl_51job,你们可以自己命名哈然后在此目录下新建一个python文件,我命名为crawl_51job.py然后代码如下:# 导入要用的包import requestsimport multiprocessingfrom lxml i...
2019-10-20 17:33:25 287
原创 requests实战练手,使用bs4和XPath爬取51job职位信息
实战练习第一步先打开51job网址,然后搜索python获取他的url,就是下图画红线的部分啦使用BS4就先简单的演示一下爬取第一页的内容吧# 导包import requestsfrom bs4 import BeautifulSoup# 获取目标网址url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,...
2019-10-13 17:25:00 464
原创 Python selenium模块
selenium库啥是seleniumselenium在爬虫中的应用selenium库的安装driver下载地址元素定位方法浏览器交互方法实操小例子啥是seleniumselenium是用于Web应用程序自动化测试工具,就像真正的用户在操作一样浏览器一样,驱动浏览器执行特定的动作,如点击、下拉、输入文本等操作。selenium在爬虫中的应用在获取动态页面中的数据,有一些动态的数据在获取源...
2019-10-11 15:07:35 158
原创 XPath知识点
文章目录什么是XPathXPath路径表达式XPath函数Python lxml模块安装lxml库实操例子什么是XPathXPath为XML路径语言,可以用于定位XML文本的节点,但实际上也适用于定位HTML中的节点。在HTML中,节点就是一个个HTML标签。分析节点间的关系也就是要清除HTML文档中农各个标签的关系。XPath路径表达式使用路径表达式来选取XML或HTML的节点或节点集...
2019-10-07 13:10:38 184
原创 CentOS 7下 使用yum 安装MongoDB4.0数据库
vim /etc/yum.repos.d/mongo.reponame=MongoDB Repositorybaseurl=https://repo.mongodb.org/yum/redhat/7Server/mongodb-org/4.0/x86_64/gpgcheck=0enabled=1yum -y install mongodb-orgvim /etc/mongod.con...
2019-09-26 17:12:22 228
原创 入门CentOS 7、配置网卡信息、使用secureCRT(详细过程)
CentOS入门为什么选择CentOS操作系统Ubuntu和CentOSUbuntuCentOS下载CentOS 7配置网卡信息安装yum管理包和secureCRT连接工具Yum使用secureCRT工具操作虚拟机secureCRT概述下载secureCRT工具如何建立连接为什么选择CentOS操作系统Ubuntu和CentOSUbuntu有着靓丽的用户界面,完善的包管理系统,强大的...
2019-09-25 19:06:15 587
原创 Linux入门,强大的“find宿管”和在大学点名的“locate教授”
查找命令locate和findlocate用法缺点解决方法强大的find用法何处何物按文件名查找-name按文件大小查找-size按最近访问时间查找-atime按文件类型查找-type做什么locatelocate 的意思是定位,它的功能就是搜索包含关键字的所有文件和目录用法locate [option]... pattern...缺点刚创建的文件用locate查询不到(24个小时后才...
2019-09-19 23:36:33 130
原创 Linux入门,RTFM阅读那该死的手册
不懂就问一问'男人' man命令显示使用手册NAMESYNOPSISaproposman的替代品不要再问了,问就是RTFM.man命令显示使用手册不懂哪里就问问那个’男人’man 后面接要显示使用手册的命令名字例如显示ls命令的使用手册在终端输入man ls命令就会显示如下图所示的界面,最重要的三个区域:NAMESYNOPSISDESCRIPTIONNAME顾名思义 ...
2019-09-19 18:13:50 381
原创 Linux入门,Nano文本编辑器
Nano文本编辑器的简单应用Nano简单介绍启动NanoNano中的键盘快捷键Nano的参数通过.nanorc来配置Nano.bashrc配置终端.profile配置终端使配置文件立即生效Nano简单介绍Nano是一个文本编辑器,不是文本处理器纯文本格式,就是没有任何文本修饰,没有任何粗体,斜体,下划线等修饰.Nano是一款适合入门的文本编辑器启动NanoUbuntu预装了nano,要...
2019-09-19 15:32:03 1355
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人