an13083611535
码龄10年
关注
提问 私信
  • 博客:76,895
    76,895
    总访问量
  • 暂无
    原创
  • 442,508
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2015-04-07
博客简介:

an13083611535的博客

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得0次评论
  • 获得35次收藏
创作历程
  • 42篇
    2019年
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

爬虫框架之Scrapy(三 CrawlSpider)

如何爬取一个网站的全站数据?可以使用Scrapy中基于Spider的递归方式进行爬取(Request模块回调parse方法)还有一种更高效的方法,就是基于CrawlSpider的自动爬取实现简介CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生出了自己独有的强大功能和特性,其中最有名的就是"LInkExtractors"链接提...
转载
发布博客 2019.04.25 ·
194 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫框架之Scrapy(一)

scrapy简介scrapy是一个用python实现为了爬取网站数据,提取结构性数据而编写的应用框架,功能非常的强大。scrapy常应用在包括数据挖掘,信息处理或者储存历史数据的一系列程序中。scrapy框架图绿线是数据流向Scrapy Engine(引擎):负责Spiders、Item Pipeline,Downloader、Scheduler中间的通信、...
转载
发布博客 2019.04.23 ·
340 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

selenium+谷歌无头浏览器爬取网易新闻国内板块

网页分析首先来看下要爬取的网站的页面查看网页源代码:你会发现它是由js动态加载显示的所以采用selenium+谷歌无头浏览器来爬取它1 加载网站,并拖动到底,发现其还有个加载更多2 模拟点击它,然后再次拖动到底,,就可以加载完整个页面示例代码from selenium import webdriverfrom selenium.webd...
转载
发布博客 2019.04.21 ·
270 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

python爬虫之selenium、phantomJs

图片懒加载技术什么是图片懒加载技术图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的技术就被称为“图片懒加载”。如何实现图片懒加载技术在网页源码中,在im...
转载
发布博客 2019.04.21 ·
432 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python爬虫数据解析之正则表达式

爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析。python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup。这篇博客主要记录下正则表达式的使用。正则表达式 .匹配除“
”之外的任何单个字符。* 匹配前面的子表达式零次或者多次。+ 匹配前面的子表达式一次或者多次。...
转载
发布博客 2019.04.18 ·
803 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

python 模拟豆瓣登录(豆瓣6.0)

最近在学习python爬虫,看到网上有很多关于模拟豆瓣登录的例子,随意找了一个试了下,发现不能运行,对比了一下代码和豆瓣网站,发现原来是豆瓣网站做了修改,增加了反爬措施。首先看下要模拟登录的网站:打开开发者模式:在账号和密码随意填入数据:发现会发送一个post请求:ur是:https://accounts.douban.com/j/mobile/lo...
转载
发布博客 2019.04.17 ·
357 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

python之线程

概念线程是多任务编程方式之一,可以使用计算机的多核资源。线程又称为轻量级的进程,在并发执行上和进程相同。但是一个进程中可以包含多个线程,这些线程共享线程的运行环境。线程和进程的比较:1 进程的创建开销大,而线程的创建开销小。2 进程间的资源共享,只能通过进程间通信。而同一进程下线程间的资源共享,就像使用全局变量一样。3 多个功能独立的程序需要成为不同的进程。而不能...
转载
发布博客 2019.04.27 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python bz2模块

bz2模块提供了使用bzip2算法压缩和解压缩数据一套完整的接口。bz2模块包括: 用于读写压缩文件的open()函数和BZ2File类 用于一次性压缩和解压缩的compress()和decompress()函数 用于增量压缩和解压的BZ2Compressor和BZ2Decompressor类文件压缩和解压bz2.open(filename,mod...
转载
发布博客 2019.04.15 ·
2024 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

python之PIL库(Image模块)

PIL(Python Image Library)是python的第三方图像处理库,PIL的功能非常的强大,几乎被认定是Python的官方图像处理库了。由于PIL仅支持到python2.7于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新的python3,而且扩容了很多特性,所以在python3我们可以直接安装Pillow。我们可以去官网查看它的资料:h...
转载
发布博客 2019.04.12 ·
1360 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

python爬取猫眼电影top100

最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了。1 看下猫眼电影的top100页面分了10页,url为:https://maoyan.com/board/4?offset=0我们发起请求,得到相应:我们我使用的是requests库,这是一个第三方的库。2 利用正则解析爬取下的页面当然你也可以使用xpath...
转载
发布博客 2019.04.09 ·
360 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

初试PySnooper

Pysooper是什么?我们写代码会经常出现bug,有的人会使用断点调试器,但是设置这样的断点调试器是花时间的。所以很多人会在可能出现错误的地方print打印来输出语句。Pysooper的作用有点类似,你不必小心谨慎的使用print语句,只需要在想要调试的函数中引入一个装饰器。就可以得到函数的详细日志,包括运行了那些行,何时运行,以及何时更改了局部变量。使用示例写一个...
转载
发布博客 2019.04.25 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫框架之Scrapy(二)

递归解析糗事百科递归解析在前面的例子里只是爬取了糗事百科热门的第一个页面,但是当我们需要爬取更多的页面时,需要对每个页面的url依次发起请求,然后通过解析的方法进行作者和标题的解析。我们可以构建一个url列表,放进去所有页面的url,但是这样是不推荐的。我们也可以通过requests的方法来手动解析,然后来使用递归的思想来编写程序。比如:糗事百科首页的页码...
转载
发布博客 2019.04.24 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python Event_loop(事件循环)

由于GIL全局解释器锁的存在,意味着在任何一个时刻,只有一个线程处于执行状态。(1)执行栈:因为python是单线程的,同一时间只能执行一个方法,所以当一系列的方法被依次调用的时候,python会先解析这些方法,把其中的同步任务按照执行顺序排队到一个地方,这个地方叫做执行栈。(2)事件队列(任务队列):主线程之外,还存在一个"任务队列"(task queue)。当遇...
转载
发布博客 2019.04.01 ·
2073 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

python面试中被问的最多的10道题

1 性能: 解析下面代码慢在哪里def strtest1(num):str='first'for i in range(num):str+="X"return str解析:python中str是一个不可变类型,每次迭代,都会生成一个新的str来储存对象,当num特别大的时候,就会创建很多的str,所有对内存的占用也会特别的大。2 闭包:写一个函数,接收整数参数n,返回一个函数,函数的功能...
转载
发布博客 2019.04.01 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python爬虫数据解析之BeautifulSoup

BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。BeautfulSoup是python爬虫三大解析方法之一。首先来看个例子:from bs4 import BeautifulSouphtml_doc = """<html><head>...
转载
发布博客 2019.04.19 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python requests模块

什么是requests模块 了解爬虫的人都知道,爬虫总共分为四部分,发送请求,获取响应,解析数据,保存数据,发送请求可能是爬虫的起点,或者说是第一步,更是重点。而requests模块是python中基于网络请求的模块,或者可以说是发送请求的模块,它通过模拟浏览器发起请求,虽然它的语法相对比较简单,但是它的功能却是十分的强大。在python3...
转载
发布博客 2019.04.17 ·
169 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python之asyncio

asyncio是Python 3.4版本引入的标准库,直接内置了对异步IO的支持。asnycio是用来编写并发代码的库,python3.5以后使用async/await语法。asyncio被用作多个提供高性能 Python 异步框架的基础,包括网络和网站服务,数据库连接库,分布式任务队列等等。asyncio往往是构建 IO 密集型和高层级结构化网络代码的最佳选择。...
转载
发布博客 2019.04.01 ·
148 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python 抓取糗事百科糗图

1 首先看下要抓取的页面这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来。2 分析网页源代码发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的url,然后下载下来。3 编写程序import requestsimport reimport osdef main(): url = 'h...
转载
发布博客 2019.04.16 ·
271 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python之进程

1 概念进程:程序执行一次的过程。是程序被读取到内存之中,被操作系统调用时开始生命周期,执行结束即结束生命周期,是一个过程。进程是战占有cpu和内存的。在linux系统下,创建进程会自动在系统下生成一个PCB(进程控制块)。PCB:内存中的一小块空间,用来记录进程的各种信息,包括pid,name,调度信息,优先级,状态,虚拟地址等。pid:操作系统中每一个进程都有唯一的i...
转载
发布博客 2019.03.29 ·
183 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql怎么限制ip访问

grant all privileges on *.* to 'root'@'ip'identified by '密码'; #授权某个ip的用户可以通过密码访问数据库转载于:https://www.cnblogs.com/xiaozx/p/10606473.html
转载
发布博客 2019.03.27 ·
1628 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多