78GA_Web&Spider
文章平均质量分 67
爬虫
sevieryang
DM/DW/Statistics/Quant
展开
-
DevpTips_chromedriver下载及chrome如何降维版本
chromedriver下载https://chromedriver.storage.googleapis.com/index.htmlchrome浏览器版本下载https://www.chromedownloads.net/chrome64win/防止chrome自动更新:原创 2020-10-16 21:43:58 · 365 阅读 · 0 评论 -
python txt write \r \n区别 及转义字符
原创 2020-06-22 14:03:20 · 1608 阅读 · 0 评论 -
一些做项目过程中的搜的网页知识
jspJSP全称Java Server Pages,是一种动态网页开发技术。它使用JSP标签在HTML网页中插入Java代码。标签通常以<%开头以%>结束。JSP是一种Java servlet,主要用于实现Java web应用程序的用户界面部分。网页开发者们通过结合HTML代码、XHTML代码、XML元素以及嵌入JSP操作和命令来编写JSP。JSP通过网页表单获取用户输入数据、访问数据库及其他数据源,然后动态地创建网页。html/css/javascript 都是前端的,给浏览器执行、渲原创 2020-06-08 15:15:01 · 194 阅读 · 0 评论 -
crawler project:bilibili_spider
# _*_ coding: utf-8 _*_import requests, refrom lxml import etreeclass BlBl: def __init__(self,url): self.url = url # 哔哩哔哩弹幕url self.danmu_url= 'https://comment.bilibil...原创 2019-02-24 02:17:47 · 286 阅读 · 0 评论 -
crawler project:douban_spider
# coding=utf-8import requestsimport jsonclass DoubanSpider: def __init__(self): self.url_temp_list = [ { "url_temp": "https://m.douban.com/rexxar/api/v2/su...原创 2019-02-24 02:15:40 · 216 阅读 · 0 评论 -
crawler project:tieba_spider
# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw=" + tieba_name + "&am...原创 2019-02-24 02:13:02 · 272 阅读 · 0 评论 -
crawler project:百度翻译
# coding=utf-8import requestsimport execjsjs = '''function a(r, o) { for (var t = 0; t < o.length - 2; t += 3) { var a = o.charAt(t + 2); a = a >= "a" ? a.cha...原创 2019-02-24 02:10:56 · 3237 阅读 · 0 评论 -
终于找到了新建模板的run in console
原创 2020-12-17 09:02:54 · 170 阅读 · 0 评论 -
demjson
原创 2020-12-14 14:23:46 · 167 阅读 · 0 评论 -
微票宝果然low...
原创 2020-10-22 13:40:24 · 192 阅读 · 0 评论 -
DevpTips_Firefox的geckodriver安装和使用成功
https://github.com/mozilla/geckodriver/releases/原创 2020-10-16 23:12:28 · 303 阅读 · 0 评论 -
解析库XPath【全】
解析库对于网页的节点来说,它可以定义id、 class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位(或提取)一个或多个节点。然后再调用相应方法获取它的正文内容或者属性,就可以提取我们想要的信息。[第四部分 解析库的使用(XPath、Beautiful Soup、PyQuery][https://www.cnblogs.com/Micro0623/p/10496376.html]XPath全称 XML Path Language,XML 路径语言最初是设计原创 2020-06-21 23:44:28 · 388 阅读 · 0 评论 -
一篇搞懂xml
xml【引言】 前一阵子刚刚学习了html(HyperText Markup Language),最近又接触了xml(Extensible Markup Language),它们之间有什么联系和区别呢?现在咱们就来重新认识一下。【什么是html?】 html被称为超文本标记语言, 是一种描述性语言,用html 可以创建能在互联网上传输的信息页,是构成网页文档的主要语言,它是由很多的标签组成,具有简易性、与平台无关性两大要点。 html就是描述网页长什么样子、有什么内容原创 2020-06-21 23:36:39 · 320 阅读 · 0 评论 -
pymysql之commit
在使用mysql数据库时,有时需要提交事务,有时不需要.具体什么时候需要,什么时候不需要?# 不需要提交def init(conn): sql = '''CREATE TABLE `腾讯云` ( `_ID/名称` VARCHAR(100) DEFAULT NULL, `监控` VARCHAR(100) DEFAULT NULL, `状态` VARCHAR(100) DEFAULT NULL,原创 2020-06-09 16:36:50 · 4477 阅读 · 0 评论 -
爬虫整理临时
js和xhr都是请求类型的过滤条件,js代表直接请求的js文件,xhr代表的是ajax请求对文件类型的过滤,XHR代表当前页面执行的时候网络请求,JS代表当前页面所加载的JS文件。Network的功能是:记录在当前页面上发生的所有请求。现在看上去好像空空如也的样子,这是因为Network记录的是实时网络请求。现在网页都已经加载完成,所以不会有东西。刷新一下页面,浏览器会重新访问网络,这样就会有记录。当我们使用requests.get(url)时,只是获取了请求中的第一个,当这个请求中不包含我们需要原创 2020-06-03 18:40:19 · 231 阅读 · 0 评论 -
如何查看网站所用的技术
推荐:https://w3techs.com/sites本质是爬取分析比如:豆瓣读书同城票据知乎东方财经还有:查看response headers原创 2020-06-02 15:33:34 · 534 阅读 · 0 评论 -
【补充】Python爬虫:为什么要使用IP代理
转载一篇好文,marked.为什么爬虫要使用IP代理我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值...转载 2018-11-28 07:44:25 · 442 阅读 · 0 评论 -
Project-2: 用python抓取包含关键词的网页
# #导入包# import urllib# import urllib.request## wd = input('输入要搜索的关键字:')# data = {}# data['wd'] = wd# #转换数据# url_value = urllib.parse.urlencode(data)# print(url_value)# url = 'https://www.bai...原创 2019-01-31 22:46:19 · 2440 阅读 · 0 评论 -
Project-3: 用python下载贴吧中的图片
'''<img class="BDE_Image" src="xx.jpg" pic_ext="jpeg" width="510" height="510"><img class="BDE_Image" src="xx.jpg" pic_ext="jpeg" changedsize="true&原创 2019-01-31 22:52:41 · 524 阅读 · 0 评论 -
Project-4: 用python抓取股票数据
'''user_agent = ["Mozilla/5.0 (Windows NT 10.0; WOW64)", 'Mozilla/5.0 (Windows NT 6.3; WOW64)', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 ...原创 2019-01-31 23:44:00 · 1791 阅读 · 0 评论 -
手把手系列2-教你配置爬虫开发环境(目录)
1. web库2. 部署相关库3. 存储库安装pymongodb安装pymysql4. 解析库安装tesseract-ocr5. 密码破解工具配套安装pycrypto6. 爬虫框架安装scrapy框架7. 请求库安装chromedriver安装geckodriver安装phantomjs8. 数据库MongoDBMySQLRedis9....原创 2019-02-02 19:56:11 · 188 阅读 · 0 评论 -
Project-1: 用python爬取指定的网页——爬取豆瓣首页
'''爬取豆瓣首页urlib.request 打开和读取urlsurllib.error urllib.request产生的错误url.parse 解析urls的方法urllib.robotparse 用来解析robots.txt文本'''#导入模块import urllib.request#urlurl = 'https...原创 2019-01-31 22:34:20 · 503 阅读 · 0 评论 -
手把手系列:教你安装和设置抓包工具Charles(亲测适用Win10)
记录一下抓包及代理工具的设置,为爬虫做准备。首先看一下我们美丽的Charles的logo:安装Charles步骤:如果没有,请安装最新chrome浏览器基于chrome浏览器,安装扩展应用SwitchySharp(1) 百度云盘下载SwitchySharp插件链接:https://pan.baidu.com/s/1l-LsikaX0YCxNURr12Ludg提取码:...原创 2018-11-29 23:51:41 · 3472 阅读 · 1 评论