- 博客(58)
- 资源 (12)
- 收藏
- 关注
原创 scrapy框架学习之CrawlSpider样例
# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass WeixinSpider(CrawlSpider): name = 'weixin' allowed_do...
2020-04-29 17:45:45 161
原创 scrapy框架学习之demo2
在该部分将pipeLine模块加上直接上代码qsbk.py# -*- coding: utf-8 -*-import scrapyfrom tutorial.items import TutorialItemfrom scrapy.http import responseclass QsbkSpider(scrapy.Spider): name = 'qsbk' a...
2020-04-24 21:49:02 139
原创 scrapy框架学习之demo1
环境配置1、安装Scarpy库2、安装pypwin32库创建项目在pytharm的终端创建一个scrapy的项目scrapy startproject tutorial相应的目录下就有了刚刚创建的项目创建爬虫来到刚刚的项目中的spiders的目录下,继续在pycharm下的终端输入scrapy genspider qsbk "qiushibaike.com"代码,创建一个...
2020-04-24 17:54:09 160
原创 selenuim篇之拉勾网爬虫
from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsimport time,randomfrom lxml import etreedef next_click(button): global driver action = Ac...
2020-04-24 14:03:51 136
原创 selenium篇之其他
屏幕截图from selenium import webdriverdriver = webdriver.Firefox()driver.get('http://www.python.org/')driver.save_screenshot('screenshot.png')driver.quit()如何向下滚动到页面底部您可以使用execute_script方法在加载的页面上执...
2020-04-23 16:55:16 102
原创 selenium篇之行动链
常用接口说明接口描述click(on_element = None )单击一个元素double_click(on_element = None )双击一个元素move_by_offset(xoffset,yoffset将鼠标移动到当前鼠标位置的偏移处move_to_element(to_element )将鼠标移到元素的中间move_to_el...
2020-04-23 15:39:58 158
原创 selenium篇之等待
如今,大多数Web应用程序都在使用AJAX技术。当浏览器加载页面时,该页面中的元素可能会以不同的时间间隔加载。这使查找元素变得困难:如果DOM中尚不存在元素,则定位函数将引发ElementNotVisibleException异常。使用等待,我们可以解决此问题。等待使执行的动作之间有些松懈-主要是定位元素或对该元素进行的任何其他操作。Selenium Webdriver提供两种类型的等待-隐式和...
2020-04-23 15:04:16 102
原创 selenium篇之元素定位
元素定位官网传送门有多种策略可以在页面中定位元素。您可以根据自己的情况选择最合适的一种。Selenium提供了以下方法来查找页面中的元素:find_element_by_idfind_element_by_namefind_element_by_xpathfind_element_by_link_textfind_element_by_partial_link_t...
2020-04-23 14:31:10 206
原创 python爬虫之'chromedriver' executable needs to be in PATH解决办法
1、首次选择适合自己版本的chromedriver,如何选择可以看我这篇文章2、将chromedriver.exe文件放到google浏览器的安装目录,我的google浏览器安装目录是C:\Program Files (x86)\Google\Chrome\Application3、再次执行测试程序from selenium import webdriverdriver_path = ...
2020-04-23 09:25:04 2752
原创 python爬虫之斗图网
单线程import requestsfrom lxml import etreefrom urllib import requestimport osheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...
2020-04-22 22:13:31 228
原创 python爬虫之Queue队列
Queue队列类型FIFOQueue.Queue(maxsize=0)FIFO即First in First Out,先进先出。Queue提供了一个基本的FIFO容器,使用方法很简单,maxsize是个整数,指明了队列中能存放的数据个数的上限。一旦达到上限,插入会导致阻塞,直到队列中的数据被消费掉。如果maxsize小于或者等于0,队列大小没有限制。LIFOQueue.LifoQueu...
2020-04-22 19:57:50 644
原创 python爬虫之生产者与消费者
普通生产者与消费者模式import threadingimport random,timeItem = 1000lock = threading.Lock()class Producter(threading.Thread): def run(self): global Item while(True): time.sle...
2020-04-22 17:21:27 384
原创 python爬虫之threading多线程
python在创建多线程时,需要引用threading库Thread类创建多线程Thread类创建多线程,将需要执行的函数作为target参数传入其中def Coding(): for x in range(3): print("正在写代码%s" % threading.current_thread()) time.sleep(1)def Drwa...
2020-04-22 16:18:55 265
原创 pycharm爬虫之与mysql操作
在连接mysql数据库时,采用的是pymysql库测试连接数据库import pymysqldb = pymysql.connect(host="192.168.218.129",user="root",password="11111111",database="pymysql",port=3306)# 使用cursor()方法获取操作游标cursor = db.cursor()#...
2020-04-22 13:55:27 431
原创 centos7安装mysql
由于CentOS 的yum源中没有mysql,需要到mysql的官网下载yum repo配置文件一、 下载并安装MySQL官方的 Yum Repository[root@localhost ~]# wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm使用上面的命令就直接下载了Yum Reposit...
2020-04-22 09:54:41 214
原创 centos禁用防火墙
查看防火墙状态systemctl status firewalld.service执行关闭命令systemctl stop firewalld.service执行开机禁用防火墙自启命令systemctl disable firewalld.servicesystemctl status firewalld.service一波操作之后,防火墙就禁用了,...
2020-04-21 21:51:33 132
原创 python学习之从csv文件中读取数据
python学习之将数据写入到csv文件中介绍了如何将内存中数据写入到csv文件中,这节将介绍如何从csv文件中读取数据,读取数据也分为返回的是列表形式和字典形式列表形式按行读取,返回每行内容import csvwith open("test.csv","r",encoding="utf-8") as f: f_read = csv.reader(f) next(f_re...
2020-04-21 21:40:02 3350
原创 python学习之将数据写入到csv文件中
在python中,将数据写入到csv文件中分为将列表形式数据写入和将字典形式数据写入,在使用csv相关操作时,需要加载csv模块列表形式将列表形式数据写入到csv文件中,主要使用到了csv.writer 、writerow和writerows函数,分别是将打开的文件描述符转化为csv对象,写入单行数据、写入多行数据import csvhead = ["name","age"]data ...
2020-04-21 21:14:59 5614
原创 python爬虫之json.dump与json_dumps
python提供了json.dump与json_dumps两个函数将python对象转化为json格式的字符串json.dumps函数json.dumps函数是在内存中将python对象转化为json格式的字符串import jsonob = [ {"name":"小名", "age":23 }, {"name":"消防", "age":23...
2020-04-21 20:13:24 716
原创 python爬虫之json.load与json.loads
之前介绍了如何将python对象转化为json格式字符串用于保存,这里将介绍如何将json格式字符串转化为python对象json.loads函数json.loads函数是将内存中json格式字符串转化为python对象json_str = '[{"name": "小名", "age": 23}, {"name": "消防", "age": 23}]'objson = json.loads...
2020-04-21 20:12:24 1036
原创 python学习之字符串删除特定字符
replace函数语法str.replace(old, new[, max])old – 将被替换的子字符串。new – 新字符串,用于替换old子字符串。max – 可选字符串, 替换不超过 max 次样例str = "this is string example....wow!!! this is really string";print(str.replace("is...
2020-04-21 16:09:28 179
原创 python学习之enumerate函数
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。a = ["sf","svv"]for v in enumerate(a): print(v)直接结果(0, 'sf')(1, 'svv')我们可以通过enumerate函数修改数组内容例如a = ["sf","svv"]...
2020-04-21 15:37:39 203
原创 python学习之zip函数
zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。zip 方法在 Python 2 和 Python 3 中的不同:在 Python 3.x 中为了减少内存,zip() 返回的是一个对象。如需展示列表,需手动 list() 转换...
2020-04-21 08:44:57 79
原创 python爬虫之re模块
match函数match:从开始的位置进行匹配。如果开始的位置没有匹配到。就直接失败了。text = "hello"ret = re.match("h",text)print(ret.group())search函数在字符串中找到第一个满足条件的。text = "hello"ret = re.search("e",text)print(ret.group())group 分...
2020-04-20 23:58:44 275 1
原创 python爬虫之正则表达式
字符符号描述.匹配除换行符以外的任意字符\w匹配字母或数字或下划线(word)\s匹配任意的空白符(space)\d匹配数字(digital)\n匹配一个换行符\t匹配一个制表符\b匹配一个单词的结尾^匹配字符串的开始,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 ^。$匹...
2020-04-20 22:29:03 235
原创 python学习之全局变量与局部变量
全局变量 定义在函数外的变量定义在函数内的变量a = 1def fun(): b = 2在上面的代码中,变量a为全局变量,变量b为局部变量,a可以在fun函数内部访问,但是变量b无法在函数外被访问函数中访问全局变量def fun1(): print(a)def fun2(): a =3 print(a)def fun3(): a = a ...
2020-04-20 20:27:52 254
原创 python爬虫之天气预报网
import requestsfrom bs4 import BeautifulSoupheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}c...
2020-04-20 19:05:40 170
原创 python爬虫之不规则html文本解析
在使用bs4时,经常会遇见不规则html文本,这时候需要使用html5lib库进行解析html = BeautifulSoup(text, "html5lib")
2020-04-20 16:25:19 705
原创 python爬虫之Beautifulsoup库
https://www.cnblogs.com/OliverQin/p/12595647.htmlhttps://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
2020-04-20 00:13:20 216
原创 python爬虫之电影天堂
import requestsfrom lxml import etreeBASE_URL="https://www.dytt8.net"url = "https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"headers1 = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win...
2020-04-17 20:59:28 3045
原创 python学习之format 格式化函数
Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。format 函数可以接受不限个参数,位置可以不按顺序字符串处理print("{} {}".format("hello", "world")) # 不设置指定位置,按默认顺序print("{0} {1}".format("he...
2020-04-17 09:55:33 207
原创 python学习之map函数和lambda函数
map函数map()是 Python 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并返回。map(function, iterable, ...)function – 函数名或者匿名函数iterable – 一个或多个序列,在这里需要看前面function的参数个数,在map中,不会对iteta...
2020-04-17 09:19:32 420
原创 python爬虫之xpath
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的选取节点表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。…选取当前节点的父节点。@选取属性。实例...
2020-04-15 18:25:25 128
原创 python爬虫之requests库(二)
结合python爬虫之requests库(一)部分,我们继续,接下来将首先介绍requests的post方法。我们还是来访问http://httpbin.org/postimport requestsdata = {"key1":"value1","key2":"value2"}url = "http://httpbin.org/post"re = requests.post(url,d...
2020-04-14 17:47:43 528
原创 python爬虫之requests库(一)
requests库是一个常用的用于http请求的模块,它使用python语言编写,可以方便的对网页进行爬取,是学习python爬虫的较好的http请求模块requests库的安装在这里,我是使用pycharm对requests库进行安装的,首先选择File->settings,找到Project pychram,点击右边的加号在弹出栏中输入requests选中,然后点击下面的inst...
2020-04-14 16:04:12 3411 1
原创 python爬虫之使用静态Cookie模拟用户登录
首先介绍下Cookie内容,什么是Cookie。Cookie的引文原意是“点心”,它是在客户端访问Web服务器时,服务器在客户端硬C盘上存放的信息,好像是服务器发送给客户的“点心”。服务器可以根据Cookie来跟踪客户状态,这对于需C要区别客户的场合(如电子商务)特别有用。当客户端首次请求访问服务器时,服务器先在客户端存放包含该客户的相关信息的Cookie,以后客户端每次请求访问服务器时,都会在H...
2020-04-14 09:35:26 519
原创 pychram代码自动换行
第一步:打开pycharm的File->settings第二步:找到General->Soft Wraps,勾选箭头所指内容,添加需要换行的文件类型,我这里添加的是;*.py,记住文件类型之间使用“;”分隔,使用“;”分隔,使用“;”分隔最后记得要点确认!最后记得要点确认!最后记得要点确认!重要的事说三遍完成上面操作,就可以看到结果啦...
2020-04-14 08:51:43 370
原创 pychram控制台自动换行设置
第一步:打开pycharm的settings第二步:在General目录下找到Console,勾选下面箭头所指内容。完成控制台自动换行最后记得要点确认!最后记得要点确认!最后记得要点确认!重要的事说三遍...
2020-04-14 08:51:07 560
spring-5.2.6.RELEASE-dist.7z
2021-07-18
mysql57-community-release-el7-9.noarch.rpm
2020-10-25
LSM-tree.7z
2020-07-06
NetAssist.zip
2020-05-21
MySQL15_47360.zip
2020-04-22
DOSBox0.74-win32-installer.zip
2019-10-24
DOSbox使用的masm.zip
2019-10-24
copy fofboiv sfbo .zip
2019-06-27
《机器学习与应用》_雷明 百度网盘
2019-04-07
Pig编程指南.pdf
2017-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人