![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
青果HA
☀
展开
-
Python爬取数据保存在嵌套字典里,并实现A字典和B字典合并
1.Python爬取数据保存在嵌套字典里网页爬取得数据保存为嵌套字典,并将该字典定义为全局变量# -*- coding: utf-8 -*-from __future__ import unicode_literalsfrom django.test import TestCaseimport requestsimport jsonimport reimport panda...原创 2020-03-26 21:51:17 · 1673 阅读 · 0 评论 -
网站信息爬取、下载PDF及JSON文件的保存和JSON转CSV文件
要求:爬取网站:http://www.fsb.org/publications/中的20个page_url下面的title,time,content 和 PDF链接并下载PDF。包括模块:爬取列表页中每一个page_url 爬取新闻页中的标题、时间、内容和PDF的链接 下载PDF,将所有的PDF保存在一个文件夹里 把时间、标题和内容存为json格式的文件 再将json格式...原创 2019-04-01 21:44:38 · 2061 阅读 · 1 评论 -
动态加载页面分析、POST请求参数和内容爬取
要求:爬取网站:http://jg.sac.net.cn/pages/publicity/securities-list.html#中的所有公司的page_url下面的公司名,注册地址、法人代表等信息。该网站与之前网站不同的是:是动态加载的,不能使用requests请求获得列表页的信息及每一个公司的url。因此这里是使用post方法,获取到列表页面的信息。包括模块:列表页和新...原创 2019-04-02 15:13:06 · 5770 阅读 · 0 评论 -
链接是pdf后缀,但是爬取是pdfjs框架下的预览
今天领导临时布置了一个很紧急的任务,需要爬取网站数据!爬取任务就一个关键字:时间紧。 接到任务后,就开始着手爬取了,但是这个任务跟之前爬取普通的PDF不一样,因为PDF对应链接的页面没有下载点击按钮,按照之前的下载模板,得到的是一堆源码。看了下网页源码,显示:网页的download功能被屏蔽了。 前面是一堆废话,下面进入正文。需求:图一:爬取如下界面下的所有公司列表里面,每个公司点进去之...原创 2019-04-11 21:50:28 · 1864 阅读 · 3 评论 -
网站table标签下表格数据的爬取
要求:爬取网站:http://www.cbrc.gov.cn/chinese/home/docViewPage/110009¤t=1中的所有page_url里面的信息。具体信息有以下四类:图片格式的png 、附件包括pdf或xls 、网页表格 (表格有两种),下面是四种实例网站1)附件http://www.cbrc.gov.cn/chinese/home/docV...原创 2019-04-18 17:40:47 · 4623 阅读 · 0 评论 -
数据库数据写入前端的模态框(Django,Bootstrap,Ajax,数据库)
自从5月22离开实验室522及毕业之后,再也没有写过博客,主要原因是入职一个月以来,基本就是各种培训,公司培训、部门培训、室内培训主要是熟悉公司业务,真正好好学东西的时间也很少,也没啥写的。正好趁着周末加两天班学了点前端数据库和后端的相关知识,想总结一下。实现功能:将数据库里的数据通过异步加载的方式(点击该条的时候加载,不点击的时候不加载),写入前端的模态框。图1是前端模态框,图二是图一详...原创 2019-08-18 17:13:54 · 3025 阅读 · 1 评论