爬虫
文章平均质量分 52
ALWAYS_FANG
python 机器学习小白
展开
-
超级逆天的几个在线网站,看完直接起飞
在线工具网 这是一个在线工具大全,他是完全利用浏览器的js执行功能,去处理需求。不会把数据传到后端。由于现在js的强大功能,可以在线实现很多的功能,包括在线图片压缩,视频压缩,裁剪,合并等等当然还包括音频,下面给出截屏大家自己斟酌。除了上面的工具还有一些文本处理工具,包括PDF文档转换,合并,word,表格处理等2.一键生成小论文 输入你想要写作的文章的关键字,就能生成原创 2021-09-02 15:53:37 · 800 阅读 · 4 评论 -
这么牛的浏览器插件你见过吗?
插件到 挂路灯 gualudeng.com 搜索“插件”二字就可以获取了哦。1.全平台文章同步助手 做自媒体的同志可以看过来了,这款插件可以说的上是自媒体行业的黑科技了,可以大大节约我们的时间成本。从现在开始我们只需要在微信平台发布一篇文章,就可以同步到全网各大主流的自媒体平台。 目前支持(百家号,头条号,大鱼号,搜狐号,一点号,微博,豆瓣 CSDN,知乎,B站,博客园,掘金)等。只要在浏览器登录这些平台账原创 2021-07-02 09:19:32 · 426 阅读 · 0 评论 -
爬取天堂图片网图片
'''爬取一个网站我们首先要对网站的结构进行分析。天堂网网址www.ivsky.com首页是有两个图片大分类分别为图片素材和桌面壁纸地址分别为/tupian/bizhi两个大分类下是各个小分类url地址的形式是如/bizhi/nvxing点击小分类后展示的是各个图片小合集页面地址形式为/bizhi/nvxing/index_1.html(这里可以改变页码进行循环)...原创 2019-03-03 17:57:47 · 103959 阅读 · 2 评论 -
urllib 爬虫示例
爬虫爬取糗事百科的段子#coding=utf8importurllib.requestimportreimportos#爬取糗事百科。#定义爬取第几页page=1#http请求的一个参数,如果没有网站服务器可能不会允许你访问user_agent='Mozilla/4.0(compatible;MSIE5.5;WindowsNT)'#要爬取的...原创 2019-03-03 18:11:02 · 148 阅读 · 0 评论 -
selenium 绕过检测登录网易云音乐
#coding=utf-8from selenium import webdriverimport time from selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webd...原创 2019-03-06 20:35:25 · 1746 阅读 · 1 评论 -
利用requests库抓取代理ip
#coding=utf-8import requestsimport randomimport reimport timeuser_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OP...原创 2019-03-04 17:46:07 · 348 阅读 · 0 评论 -
scrapy-redis 持久化爬取吉他社吉他谱
1.爬虫文件# -*- coding: utf-8 -*-import scrapyimport copyimport sysfrom gtshe.items import GtsheItemclass MusicSpider(scrapy.Spider): name = 'music' allowed_domains = ['jitashe.org'] start_ur...原创 2019-03-04 17:54:42 · 563 阅读 · 0 评论