爬虫
小木木木木木mu
没有回答的时候就是一种答案,我也不想解释
展开
-
py链接mysql、redis
写在前面的话: 总结一下学到的内容,还有在做项目中遇到的问题及其解决方式。都是为了学习巩固,有什么不对的地方还希望各位大佬指正出来,不胜感激。1. redis 安装与配置下载地址:下载zip压缩包 https://github.com/MicrosoftArchive/redis/releases解压后打开 cmd 窗口并到其路径下使用该指令将redis注册为windows服务, redis.windows-service.conf 该文件就是注册服务使用的配置文件,在里面也可以更改设置密码,对应原创 2020-09-02 22:38:44 · 173 阅读 · 0 评论 -
python爬虫之编码制内容转化、json追加写入、繁体转简体
写在前面的话: 总结一下学到的内容,还有在做项目中遇到的问题及其解决方式。都是为了学习巩固,有什么不对的地方还希望各位大佬指正出来,不胜感激。1. 将编码制内容转换成可读内容我们可以看到源码和网页审查元素不一样,正文实际上是在 js 代码中,那么可以通过正则获取再去进行解析。from lxml import etreeimport re***text = re.findall("<script>.*?var.*?content='(<p>.*?/p>)'.*原创 2020-08-01 21:05:46 · 789 阅读 · 0 评论 -
python爬虫之selenium 选择下拉框、类中加入线程
写在前面的话: 总结一下学到的内容,还有在做项目中遇到的问题及其解决方式。都是为了学习巩固,有什么不对的地方还希望各位大佬指正出来,不胜感激。一、在自己的类中加入线程即类中的方法进行多线程调用在写一个项目的时候使用类进行了封装,有多个类(文件),都需要调用,在调用多线程的时候加上了self总是报错,查资料后发现需要在原类中调用线程。代码去掉了一些信息(当时爬取这个网页,不同页数请求还不一样),主要是保留线程的使用方式,具体可参考 python中如何对类的成员函数开启线程?#!/usr/bin/p原创 2020-07-21 03:06:14 · 641 阅读 · 0 评论 -
python爬虫之xpath格式转换与去除多余标签、解决部分重定向问题的方法
写在前面的话: 实习了半个多月,总结一下学到的内容,还有在做项目中遇到的问题及其解决方式。一. xpath的一些用法1. 转换格式将解析过的 xpath 转换成 HTML 字符串为什么会用到这个,是因为之前在爬取一些js包含的内容时用到了js2xml二. 数据库的连接1. 连接为了项目的维护,所以形成了加入大量异常捕捉以及打日志的习惯,便于排错。import pymysqlpymysql.install_as_MySQLdb()from Log import Loglog = Lo原创 2020-07-11 09:46:35 · 11449 阅读 · 0 评论 -
爬虫之 scrapy 框架总结
写在前面的话: 最近重新学了一下scrapy框架,之前没学好,现在总结一下…以便以后重装不需要重新找资料一. 安装需要三个库 lxml, twist, pywin32 一般前两个都有pip install pypiwin32 (有whl文件)如果有问题输入下面这句pip install -I cryptography二. 文件类型1. items.py 存放数据模型三个...原创 2019-05-06 14:04:48 · 246 阅读 · 0 评论 -
爬虫之 JS(返回非 json 数据)的爬取
爬虫之 JS(返回非 json 数据)的爬取写在前面的话: 查资料,看到常用浏览器的 user-agent 参考对照表,因为之前爬取百度文库的时候用到手机的请求头,所以就想把这些所有请求头爬下来,结果遇到一系列问题,进而解决,从而记录下来。一. 爬取内容常用浏览器(PC,移动)的 user-agent简介:该对照表整理了时下流行的浏览器User-Agent大全,User Agent也简称...原创 2019-05-08 00:35:02 · 3155 阅读 · 0 评论