爬虫
文章平均质量分 57
dandanfengyun
这个作者很懒,什么都没留下…
展开
-
python Selenium简单使用
selenium的简单使用安装 pip install selenium爬取起点完本小说排行榜数据并保存到MongoDB数据库代码如下import timeimport pymongofrom selenium import webdriverfrom selenium.common.exceptions import NoSuchElementException# driver...原创 2018-10-31 20:53:52 · 180 阅读 · 0 评论 -
Python爬虫对数据的响应分析库lxml,bs4的使用
略过原创 2020-02-10 17:15:16 · 530 阅读 · 0 评论 -
Python爬虫库urllib,requests基本方法
略过原创 2020-02-10 16:28:07 · 424 阅读 · 0 评论 -
Ubuntu设置定时任务使用python模块发送邮件
Ubuntu16.04环境。。。定时任务,顾名思义,固定时间进行的任务。在Ubuntu中,可以使用crontab来设置定时任务。crontab -l # 查看当前定时任务列表crontab -e # 编辑定时任务crontab -r # 清空定时任务。先来一个简单的, 每隔一分钟将当前时间追加到一个文件中。注意权限问题,当用户并非root用户时。只有在用户自己目录下创建文件之类不需要提...原创 2020-02-09 15:39:09 · 1028 阅读 · 0 评论 -
django发送ajax请求 获取 b站视频封面图片
首先 创建 django项目命令行输入django-admin startproject BPiccd BPicpython manage.py startapp app打开新建的项目新建文件夹 templates并 Mark 为 模板文件创建完成后设置 setting文件在INSTALLED_APPS 中加上 “app”并在 TEMPLATES 列表的 ‘DIRS’ : [] ...原创 2019-02-08 16:00:12 · 555 阅读 · 1 评论 -
python 爬取B站封面
尝试根据AV号爬取B站封面。。。尝试一:首先尝试直接根据网址获取到原网页源码获取封面比如直接根据av号访问https://www.bilibili.com/video/av41949084import sslimport urllib.requesturl = 'https://www.bilibili.com/video/av41949084'headers = {'User...原创 2019-02-08 13:50:08 · 4309 阅读 · 4 评论 -
普通分布式爬虫与 scrapy分布式 爬虫
scrapy 爬虫原创 2018-12-10 22:00:12 · 1047 阅读 · 1 评论 -
scrapy 框架 爬取 网站 实例
scrapy框架爬取网站比如https://www.dushu.com/news/99.html 爬取这个分类下每篇文章的标题 作者 内容等首先 创建工程终端输入scrapy startproject News进入工程目录cd News创建 spider 文件 主要获取网页 及 处理在逻辑写在其中 scrapy genspider history www.dushu.com这...原创 2018-12-06 19:22:24 · 994 阅读 · 0 评论 -
使用多线程爬虫爬取图片 设置守护进程
import requestsimport threadingimport queueurls = [ 'http://cms-bucket.nosdn.127.net/2018/10/16/10e36050547445f6b8972daf7373a222.jpeg', 'http://kwcdn.000dn.com/swfs/59/39972xmyj0206/pm.jpg...原创 2018-11-29 20:43:25 · 281 阅读 · 0 评论